TRACER: Trace-Gebaseerde Adaptieve Kostenefficiënte Routering voor LLM-Classificatie

Samenvatting

Elke aanroep van een LLM-classificatie-eindpunt produceert een gelabeld invoer-uitvoerpaar dat al wordt bewaard in de productielogs. Deze paren vormen een gratis, groeiende trainingsset: een lichtgewicht surrogaat dat hierop wordt getraind, kan een aanzienlijk deel van het toekomstige verkeer verwerken tegen bijna nul marginale inferentiekosten. De open vragen zijn wanneer het surrogaat betrouwbaar genoeg is voor implementatie, wat het afhandelt versus doorverwijst, en hoe die grens evolueert naarmate er meer data beschikbaar komt. Wij introduceren TRACER (Trace-based Adaptive Cost-Efficient Routing), een open-source systeem dat ML-surrogaten traint op de eigen productietraces van een LLM en de implementatie beheert via een pariteitspoort: het surrogaat wordt alleen geactiveerd wanneer de overeenstemming met de LLM een door de gebruiker gespecificeerde drempelwaarde α overschrijdt. Om de routeringsgrens transparant te maken, genereert TRACER interpreteerbare artefacten die beschrijven welke invoerregio's het surrogaat afhandelt, waar het een plateau bereikt en waarom het doorverwijst. Op een benchmark met 77 intentieklassen en een Sonnet 4.6-leraar bereikt TRACER een surrogaatdekking van 83-100%, afhankelijk van de kwaliteitsdoelstelling α; op een benchmark met 150 klassen vervangt het surrogaat de leraar volledig. Bij een natuurlijke-taalinferentietaak weigert de pariteitspoort de implementatie correct omdat de embeddingrepresentatie geen betrouwbare scheiding ondersteunt. Het systeem is beschikbaar als open-source software.

English

Every call to an LLM classification endpoint produces a labeled input-output pair already retained in production logs. These pairs constitute a free, growing training set: a lightweight surrogate trained on them can absorb a significant portion of future traffic at near-zero marginal inference cost. The open questions are when the surrogate is reliable enough to deploy, what it handles versus defers, and how that boundary evolves as data accumulates. We introduce TRACER (Trace-based Adaptive Cost-Efficient Routing), an open-source system that trains ML surrogates on an LLM's own production traces and governs deployment through a parity gate: the surrogate is activated only when its agreement with the LLM exceeds a user-specified threshold α. To make the routing boundary transparent, TRACER generates interpretability artifacts describing which input regions the surrogate handles, where it plateaus, and why it defers. On a 77-class intent benchmark with a Sonnet 4.6 teacher, TRACER achieves 83-100% surrogate coverage depending on the quality target α; on a 150-class benchmark, the surrogate fully replaces the teacher. On a natural language inference task, the parity gate correctly refuses deployment because the embedding representation cannot support reliable separation. The system is available as open-source software.

TRACER: Trace-Gebaseerde Adaptieve Kostenefficiënte Routering voor LLM-Classificatie

TRACER: Trace-Based Adaptive Cost-Efficient Routing for LLM Classification

Samenvatting

Support