TRACER: Enrutamiento Adaptativo de Bajo Costo Basado en Trazas para Clasificación con LLM

Resumen

Cada llamada a un endpoint de clasificación de un LLM genera un par entrada-salida etiquetado que ya se retiene en los registros de producción. Estos pares constituyen un conjunto de entrenamiento gratuito y en crecimiento: un sustituto ligero entrenado con ellos puede absorber una parte significativa del tráfico futuro con un coste marginal de inferencia casi nulo. Las preguntas abiertas son cuándo el sustituto es lo suficientemente fiable para desplegarse, qué maneja frente a lo que difiere, y cómo evoluciona ese límite a medida que se acumulan los datos. Presentamos TRACER (Enrutamiento Adaptativo Eficiente en Coste Basado en Trazas), un sistema de código abierto que entrena sustitutos de ML en las propias trazas de producción de un LLM y gobierna su despliegue mediante una compuerta de paridad: el sustituto se activa solo cuando su acuerdo con el LLM supera un umbral α especificado por el usuario. Para hacer transparente el límite de enrutamiento, TRACER genera artefactos de interpretabilidad que describen qué regiones de entrada maneja el sustituto, dónde se estanca y por qué difiere. En un benchmark de intención con 77 clases y un modelo maestro Sonnet 4.6, TRACER logra una cobertura del sustituto del 83-100% dependiendo del objetivo de calidad α; en un benchmark de 150 clases, el sustituto reemplaza completamente al maestro. En una tarea de inferencia de lenguaje natural, la compuerta de paridad rechaza correctamente el despliegue porque la representación de *embeddings* no puede soportar una separación fiable. El sistema está disponible como software de código abierto.

English

Every call to an LLM classification endpoint produces a labeled input-output pair already retained in production logs. These pairs constitute a free, growing training set: a lightweight surrogate trained on them can absorb a significant portion of future traffic at near-zero marginal inference cost. The open questions are when the surrogate is reliable enough to deploy, what it handles versus defers, and how that boundary evolves as data accumulates. We introduce TRACER (Trace-based Adaptive Cost-Efficient Routing), an open-source system that trains ML surrogates on an LLM's own production traces and governs deployment through a parity gate: the surrogate is activated only when its agreement with the LLM exceeds a user-specified threshold α. To make the routing boundary transparent, TRACER generates interpretability artifacts describing which input regions the surrogate handles, where it plateaus, and why it defers. On a 77-class intent benchmark with a Sonnet 4.6 teacher, TRACER achieves 83-100% surrogate coverage depending on the quality target α; on a 150-class benchmark, the surrogate fully replaces the teacher. On a natural language inference task, the parity gate correctly refuses deployment because the embedding representation cannot support reliable separation. The system is available as open-source software.

TRACER: Enrutamiento Adaptativo de Bajo Costo Basado en Trazas para Clasificación con LLM

TRACER: Trace-Based Adaptive Cost-Efficient Routing for LLM Classification

Resumen

Support