La plataforma completa de operaciones LLM

Todo lo que OpenTracy entrega -- desde gateway unificado hasta destilación de modelos. Sin marketing. Capacidades reales, arquitectura real.

Gateway Unificado

Una API compatible con OpenAI que rutea a 13 proveedores y 70+ modelos. Cambia una línea de código para empezar.

API compatible con OpenAI -- reemplazo directo, mismo SDK, mismo formato
13 proveedores: OpenAI, Anthropic, Google Gemini, Mistral, Groq, DeepSeek, Perplexity, Cerebras, SambaNova, Together, Fireworks, Cohere, AWS Bedrock
70+ modelos con precios automáticos por token integrados
Streaming completo para todos los proveedores incluida traducción SSE de Anthropic
Soporte de visión y multimodal (imágenes base64 o URL)
Llamadas a herramientas con traducción de formato entre proveedores

python

import openai

# Just change the base URL — everything else stays the same
client = openai.OpenAI(
    base_url="https://api.opentracy.com/v1",
    api_key="your-opentracy-key"
)

response = client.chat.completions.create(
    model="openai/gpt-4o-mini",
    messages=[{"role": "user", "content": "Hello!"}]
)

print(response.choices[0].message.content)

Ruteo Inteligente

Dirige solicitudes al modelo correcto según costo, latencia, complejidad o reglas personalizadas. Fallbacks automáticos cuando un proveedor se cae.

Clase Router con estrategias: round-robin, menor costo, menor latencia, aleatorio ponderado
Ruteo semántico -- clasifica la complejidad del prompt, envía los simples a modelos baratos, los complejos a modelos potentes
Fallbacks automáticos con cadenas de reintento configurables (ej. GPT-4o -> Claude -> Gemini)
Balanceo de carga entre pools de modelos para cargas de alto rendimiento
Motor en Go para ruteo de alto rendimiento con <2ms de overhead

python

import opentracy as ot

# Semantic routing: simple -> cheap, complex -> powerful
router = ot.Router(
    strategy="semantic",
    models={
        "simple": "openai/gpt-4o-mini",
        "complex": "anthropic/claude-sonnet-4-20250514",
    },
    fallbacks=["google/gemini-2.0-flash"]
)

response = router.completion(
    messages=[{"role": "user", "content": prompt}]
)
print(f"Routed to: {response.model}")
print(f"Cost: ${response._cost:.6f}")

Trazas en Tiempo Real

Cada solicitud registrada con entrada, salida, costo, latencia, modelo y conteo de tokens. Consulta millones de trazas al instante.

Registro completo: mensajes de entrada, salida, costo, latencia, modelo, tokens entrada/salida
Backend de analítica en ClickHouse -- consulta millones de trazas en milisegundos
Dashboard en tiempo real con filtros, búsqueda y vista detallada de trazas
Estadísticas por modelo: latencia P50/P95/P99, tasas de error, costo por solicitud
Exporta trazas para análisis offline o integración con tu pipeline de datos

Registro completo: mensajes de entrada, salida, costo, latencia, modelo, tokens entrada/salida

Backend de analítica en ClickHouse -- consulta millones de trazas en milisegundos

Dashboard en tiempo real con filtros, búsqueda y vista detallada de trazas

Estadísticas por modelo: latencia P50/P95/P99, tasas de error, costo por solicitud

Inteligencia de Costos

Precios automáticos por token para cada modelo. Mira exactamente a dónde va tu dinero y cuánto te ahorra el ruteo inteligente.

Precios automáticos por token para 70+ modelos (base de datos de precios actualizada continuamente)
Costo adjunto a cada respuesta -- sin adivinanzas ni cálculo manual
Comparación baseline vs real: ve lo que pagarías con el modelo más caro vs ruteo inteligente
Cálculo de ahorro neto con proyecciones mensuales
Desglose de costos por modelo, por proveedor, por período de tiempo
Alertas de presupuesto y detección de anomalías para picos inesperados

Precios automáticos por token para 70+ modelos (base de datos de precios actualizada continuamente)

Costo adjunto a cada respuesta -- sin adivinanzas ni cálculo manual

Comparación baseline vs real: ve lo que pagarías con el modelo más caro vs ruteo inteligente

Cálculo de ahorro neto con proyecciones mensuales

Monitoreo de Calidad

7 agentes autónomos de IA escanean continuamente tu tráfico de producción. Detecta problemas antes que tus usuarios.

Cluster Labeler -- agrupa prompts por dominio automáticamente
Trace Scanner -- detecta alucinaciones, rechazos, fugas de PII y problemas de formato
Outlier Detector -- señala trazas anómalas que se desvían de los patrones normales
Coherence Scorer -- califica la calidad del cluster para asegurar comportamiento consistente
Detección heurística: respuestas incompletas, frases de rechazo, picos de latencia, anomalías de costo
Detección de alucinaciones basada en LLM con puntuación de confianza (0-1)

Cluster Labeler -- agrupa prompts por dominio automáticamente

Trace Scanner -- detecta alucinaciones, rechazos, fugas de PII y problemas de formato

Outlier Detector -- señala trazas anómalas que se desvían de los patrones normales

Coherence Scorer -- califica la calidad del cluster para asegurar comportamiento consistente

Evaluaciones

LLM-as-Judge para comparación por pares y puntuación individual. Rastrea la calidad entre actualizaciones de modelo con métricas reales.

Comparación por pares: modelo A vs B, elige al ganador con tus datos de producción
Puntuación individual: califica respuestas de 1-5 con rúbricas personalizables
RouterEvaluator: evalúa decisiones de ruteo contra respuestas en caché
Métricas AUROC, curvas de Pareto y cálculos de tasa de victoria
Evaluación específica por dominio con métricas de calidad sugeridas por IA
Rastrea la calidad a lo largo del tiempo entre actualizaciones de modelo y cambios de ruteo

Comparación por pares: modelo A vs B, elige al ganador con tus datos de producción

Puntuación individual: califica respuestas de 1-5 con rúbricas personalizables

RouterEvaluator: evalúa decisiones de ruteo contra respuestas en caché

Métricas AUROC, curvas de Pareto y cálculos de tasa de victoria

Destilación de Modelos (Pipeline BOND)

Entrena modelos más pequeños, rápidos y baratos con tus datos de producción. Pipeline completo desde modelo profesor hasta LoRA desplegado.

Pipeline: Modelo profesor -> Curación con LLM-as-Judge -> Entrenamiento LoRA (Unsloth) -> Exportación GGUF
Extracción automática de datos de entrenamiento desde trazas de producción
Generación de pares de preferencia para alineamiento DPO/RLHF
Aumento de dataset dorado para benchmarks de evaluación
Tus modelos -- sin vendor lock-in, despliega donde quieras
Eval Generator crea datasets de evaluación desde datos reales de producción

Pipeline: Modelo profesor -> Curación con LLM-as-Judge -> Entrenamiento LoRA (Unsloth) -> Exportación GGUF

Extracción automática de datos de entrenamiento desde trazas de producción

Generación de pares de preferencia para alineamiento DPO/RLHF

Aumento de dataset dorado para benchmarks de evaluación

Clustering de Prompts

Descubrimiento automático de dominios desde tu tráfico de producción. Entiende qué preguntan tus usuarios y cómo rinde cada dominio.

Descubrimiento automático de dominios desde patrones de tráfico de producción
Clustering KMeans + mapa aprendido para agrupar prompts similares
Similitud basada en embeddings usando sentence transformers
Métricas de calidad y análisis de costo por cluster
Detección de drift cuando los patrones de tráfico cambian inesperadamente
Merge Checker sugiere consolidación de clusters para reducir ruido

Descubrimiento automático de dominios desde patrones de tráfico de producción

Clustering KMeans + mapa aprendido para agrupar prompts similares

Similitud basada en embeddings usando sentence transformers

Métricas de calidad y análisis de costo por cluster

Despliegue

Stack completo con Docker. Self-host con licencia MIT o usa la nube administrada. Listo para producción desde el día uno.

Deploy completo con Docker: ClickHouse + motor Go + API Python + UI React
Opción de self-host con licencia MIT -- tus datos en tu infraestructura
Motor en Go para ruteo de alto rendimiento (<2ms de overhead por solicitud)
SDK de Python: pip install opentracy
Drop-in del SDK de OpenAI: solo cambia base_url a tu instancia de OpenTracy

python

# Install the SDK
pip install opentracy

# Or self-host the full stack
git clone https://github.com/lunar-org-ai/lunar-router.git
cd lunar-router && docker compose up -d

¿Listo para tomar el control de tu stack LLM?

Código abierto, self-hostable, licencia MIT. Empieza en 5 minutos.

Empezar gratis Ver en GitHub