TRACER: Roteamento Adaptativo Baseado em Traços para Classificação de LLM com Eficiência de Custo

Resumo

Cada chamada a um endpoint de classificação de LLM produz um par entrada-saída rotulado que é automaticamente retido nos logs de produção. Esses pares constituem um conjunto de treinamento gratuito e em crescimento: um *surrogate* leve treinado com eles pode absorver uma parcela significativa do tráfego futuro a um custo marginal de inferência próximo de zero. As questões em aberto são quando o *surrogate* é suficientemente confiável para ser implantado, o que ele processa versus o que ele delega, e como essa fronteira evolui à medida que os dados se acumulam. Apresentamos o TRACER (*Trace-based Adaptive Cost-Efficient Routing*), um sistema de código aberto que treina *surrogates* de ML nos próprios *traces* de produção de um LLM e gerencia sua implantação por meio de um *gate* de paridade: o *surrogate* é ativado apenas quando seu acordo com o LLM excede um limite α definido pelo usuário. Para tornar a fronteira de roteamento transparente, o TRACER gera artefatos de interpretabilidade que descrevem quais regiões de entrada o *surrogate* processa, onde ele estabiliza e por que ele delega. Em um *benchmark* de intenção com 77 classes usando um *teacher* Sonnet 4.6, o TRACER alcança uma cobertura do *surrogate* entre 83% e 100%, dependendo do objetivo de qualidade α; em um *benchmark* de 150 classes, o *surrogate* substitui completamente o *teacher*. Em uma tarefa de inferência em linguagem natural, o *gate* de paridade recusa corretamente a implantação porque a representação de *embeddings* não suporta uma separação confiável. O sistema está disponível como software de código aberto.

English

Every call to an LLM classification endpoint produces a labeled input-output pair already retained in production logs. These pairs constitute a free, growing training set: a lightweight surrogate trained on them can absorb a significant portion of future traffic at near-zero marginal inference cost. The open questions are when the surrogate is reliable enough to deploy, what it handles versus defers, and how that boundary evolves as data accumulates. We introduce TRACER (Trace-based Adaptive Cost-Efficient Routing), an open-source system that trains ML surrogates on an LLM's own production traces and governs deployment through a parity gate: the surrogate is activated only when its agreement with the LLM exceeds a user-specified threshold α. To make the routing boundary transparent, TRACER generates interpretability artifacts describing which input regions the surrogate handles, where it plateaus, and why it defers. On a 77-class intent benchmark with a Sonnet 4.6 teacher, TRACER achieves 83-100% surrogate coverage depending on the quality target α; on a 150-class benchmark, the surrogate fully replaces the teacher. On a natural language inference task, the parity gate correctly refuses deployment because the embedding representation cannot support reliable separation. The system is available as open-source software.

TRACER: Roteamento Adaptativo Baseado em Traços para Classificação de LLM com Eficiência de Custo

TRACER: Trace-Based Adaptive Cost-Efficient Routing for LLM Classification

Resumo

Support