La plataforma completa de operaciones LLM
Todo lo que OpenTracy entrega -- desde gateway unificado hasta destilación de modelos. Sin marketing. Capacidades reales, arquitectura real.
Gateway Unificado
Una API compatible con OpenAI que rutea a 13 proveedores y 70+ modelos. Cambia una línea de código para empezar.
- API compatible con OpenAI -- reemplazo directo, mismo SDK, mismo formato
- 13 proveedores: OpenAI, Anthropic, Google Gemini, Mistral, Groq, DeepSeek, Perplexity, Cerebras, SambaNova, Together, Fireworks, Cohere, AWS Bedrock
- 70+ modelos con precios automáticos por token integrados
- Streaming completo para todos los proveedores incluida traducción SSE de Anthropic
- Soporte de visión y multimodal (imágenes base64 o URL)
- Llamadas a herramientas con traducción de formato entre proveedores
import openai
# Just change the base URL — everything else stays the same
client = openai.OpenAI(
base_url="https://api.opentracy.com/v1",
api_key="your-opentracy-key"
)
response = client.chat.completions.create(
model="openai/gpt-4o-mini",
messages=[{"role": "user", "content": "Hello!"}]
)
print(response.choices[0].message.content)Ruteo Inteligente
Dirige solicitudes al modelo correcto según costo, latencia, complejidad o reglas personalizadas. Fallbacks automáticos cuando un proveedor se cae.
- Clase Router con estrategias: round-robin, menor costo, menor latencia, aleatorio ponderado
- Ruteo semántico -- clasifica la complejidad del prompt, envía los simples a modelos baratos, los complejos a modelos potentes
- Fallbacks automáticos con cadenas de reintento configurables (ej. GPT-4o -> Claude -> Gemini)
- Balanceo de carga entre pools de modelos para cargas de alto rendimiento
- Motor en Go para ruteo de alto rendimiento con <2ms de overhead
import opentracy as ot
# Semantic routing: simple -> cheap, complex -> powerful
router = ot.Router(
strategy="semantic",
models={
"simple": "openai/gpt-4o-mini",
"complex": "anthropic/claude-sonnet-4-20250514",
},
fallbacks=["google/gemini-2.0-flash"]
)
response = router.completion(
messages=[{"role": "user", "content": prompt}]
)
print(f"Routed to: {response.model}")
print(f"Cost: ${response._cost:.6f}")Trazas en Tiempo Real
Cada solicitud registrada con entrada, salida, costo, latencia, modelo y conteo de tokens. Consulta millones de trazas al instante.
- Registro completo: mensajes de entrada, salida, costo, latencia, modelo, tokens entrada/salida
- Backend de analítica en ClickHouse -- consulta millones de trazas en milisegundos
- Dashboard en tiempo real con filtros, búsqueda y vista detallada de trazas
- Estadísticas por modelo: latencia P50/P95/P99, tasas de error, costo por solicitud
- Exporta trazas para análisis offline o integración con tu pipeline de datos
Registro completo: mensajes de entrada, salida, costo, latencia, modelo, tokens entrada/salida
Backend de analítica en ClickHouse -- consulta millones de trazas en milisegundos
Dashboard en tiempo real con filtros, búsqueda y vista detallada de trazas
Estadísticas por modelo: latencia P50/P95/P99, tasas de error, costo por solicitud
Inteligencia de Costos
Precios automáticos por token para cada modelo. Mira exactamente a dónde va tu dinero y cuánto te ahorra el ruteo inteligente.
- Precios automáticos por token para 70+ modelos (base de datos de precios actualizada continuamente)
- Costo adjunto a cada respuesta -- sin adivinanzas ni cálculo manual
- Comparación baseline vs real: ve lo que pagarías con el modelo más caro vs ruteo inteligente
- Cálculo de ahorro neto con proyecciones mensuales
- Desglose de costos por modelo, por proveedor, por período de tiempo
- Alertas de presupuesto y detección de anomalías para picos inesperados
Precios automáticos por token para 70+ modelos (base de datos de precios actualizada continuamente)
Costo adjunto a cada respuesta -- sin adivinanzas ni cálculo manual
Comparación baseline vs real: ve lo que pagarías con el modelo más caro vs ruteo inteligente
Cálculo de ahorro neto con proyecciones mensuales
Monitoreo de Calidad
7 agentes autónomos de IA escanean continuamente tu tráfico de producción. Detecta problemas antes que tus usuarios.
- Cluster Labeler -- agrupa prompts por dominio automáticamente
- Trace Scanner -- detecta alucinaciones, rechazos, fugas de PII y problemas de formato
- Outlier Detector -- señala trazas anómalas que se desvían de los patrones normales
- Coherence Scorer -- califica la calidad del cluster para asegurar comportamiento consistente
- Detección heurística: respuestas incompletas, frases de rechazo, picos de latencia, anomalías de costo
- Detección de alucinaciones basada en LLM con puntuación de confianza (0-1)
Cluster Labeler -- agrupa prompts por dominio automáticamente
Trace Scanner -- detecta alucinaciones, rechazos, fugas de PII y problemas de formato
Outlier Detector -- señala trazas anómalas que se desvían de los patrones normales
Coherence Scorer -- califica la calidad del cluster para asegurar comportamiento consistente
Evaluaciones
LLM-as-Judge para comparación por pares y puntuación individual. Rastrea la calidad entre actualizaciones de modelo con métricas reales.
- Comparación por pares: modelo A vs B, elige al ganador con tus datos de producción
- Puntuación individual: califica respuestas de 1-5 con rúbricas personalizables
- RouterEvaluator: evalúa decisiones de ruteo contra respuestas en caché
- Métricas AUROC, curvas de Pareto y cálculos de tasa de victoria
- Evaluación específica por dominio con métricas de calidad sugeridas por IA
- Rastrea la calidad a lo largo del tiempo entre actualizaciones de modelo y cambios de ruteo
Comparación por pares: modelo A vs B, elige al ganador con tus datos de producción
Puntuación individual: califica respuestas de 1-5 con rúbricas personalizables
RouterEvaluator: evalúa decisiones de ruteo contra respuestas en caché
Métricas AUROC, curvas de Pareto y cálculos de tasa de victoria
Destilación de Modelos (Pipeline BOND)
Entrena modelos más pequeños, rápidos y baratos con tus datos de producción. Pipeline completo desde modelo profesor hasta LoRA desplegado.
- Pipeline: Modelo profesor -> Curación con LLM-as-Judge -> Entrenamiento LoRA (Unsloth) -> Exportación GGUF
- Extracción automática de datos de entrenamiento desde trazas de producción
- Generación de pares de preferencia para alineamiento DPO/RLHF
- Aumento de dataset dorado para benchmarks de evaluación
- Tus modelos -- sin vendor lock-in, despliega donde quieras
- Eval Generator crea datasets de evaluación desde datos reales de producción
Pipeline: Modelo profesor -> Curación con LLM-as-Judge -> Entrenamiento LoRA (Unsloth) -> Exportación GGUF
Extracción automática de datos de entrenamiento desde trazas de producción
Generación de pares de preferencia para alineamiento DPO/RLHF
Aumento de dataset dorado para benchmarks de evaluación
Clustering de Prompts
Descubrimiento automático de dominios desde tu tráfico de producción. Entiende qué preguntan tus usuarios y cómo rinde cada dominio.
- Descubrimiento automático de dominios desde patrones de tráfico de producción
- Clustering KMeans + mapa aprendido para agrupar prompts similares
- Similitud basada en embeddings usando sentence transformers
- Métricas de calidad y análisis de costo por cluster
- Detección de drift cuando los patrones de tráfico cambian inesperadamente
- Merge Checker sugiere consolidación de clusters para reducir ruido
Descubrimiento automático de dominios desde patrones de tráfico de producción
Clustering KMeans + mapa aprendido para agrupar prompts similares
Similitud basada en embeddings usando sentence transformers
Métricas de calidad y análisis de costo por cluster
Despliegue
Stack completo con Docker. Self-host con licencia MIT o usa la nube administrada. Listo para producción desde el día uno.
- Deploy completo con Docker: ClickHouse + motor Go + API Python + UI React
- Opción de self-host con licencia MIT -- tus datos en tu infraestructura
- Motor en Go para ruteo de alto rendimiento (<2ms de overhead por solicitud)
- SDK de Python: pip install opentracy
- Drop-in del SDK de OpenAI: solo cambia base_url a tu instancia de OpenTracy
# Install the SDK
pip install opentracy
# Or self-host the full stack
git clone https://github.com/lunar-org-ai/lunar-router.git
cd lunar-router && docker compose up -d¿Listo para tomar el control de tu stack LLM?
Código abierto, self-hostable, licencia MIT. Empieza en 5 minutos.