TRACER: Spurverfolgungsbasierte adaptive und kosteneffiziente Routing-Strategie für die LLM-Klassifikation

Zusammenfassung

Jeder Aufruf eines LLM-Klassifizierungsendpunkts erzeugt ein gelabeltes Eingabe-Ausgabe-Paar, das bereits in Produktions-Logs gespeichert wird. Diese Paare bilden einen kostenlosen, wachsenden Trainingsdatensatz: Ein darauf trainierter leichtgewichtiger Surrogate kann einen erheblichen Teil des zukünftigen Datenverkehrs zu nahezu null marginalen Inferenzkosten absorbieren. Die offenen Fragen sind, wann der Surrogate zuverlässig genug für den Einsatz ist, was er verarbeitet versus zurückstellt und wie sich diese Grenze mit zunehmenden Daten entwickelt. Wir stellen TRACER (Trace-based Adaptive Cost-Efficient Routing) vor, ein Open-Source-System, das ML-Surrogates auf den eigenen Produktions-Traces eines LLMs trainiert und deren Einsatz durch eine Paritätsprüfung steuert: Der Surrogate wird nur aktiviert, wenn seine Übereinstimmung mit dem LLM einen benutzerdefinierten Schwellenwert α überschreitet. Um die Routing-Grenze transparent zu gestalten, erzeugt TRACER Interpretierbarkeits-Artefakte, die beschreiben, welche Eingaberegionen der Surrogate bearbeitet, wo er stagniert und warum er Anfragen zurückstellt. Auf einem 77-Klassen-Intent-Benchmark mit einem Sonnet 4.6 Teacher erreicht TRACER je nach Qualitätsziel α eine Surrogate-Abdeckung von 83–100 %; auf einem 150-Klassen-Benchmark ersetzt der Surrogate den Teacher vollständig. Bei einer Natural Language Inference-Aufgabe verweigert die Paritätsprüfung den Einsatz korrekterweise, da die Embedding-Repräsentation keine zuverlässige Trennung unterstützt. Das System ist als Open-Source-Software verfügbar.

English

Every call to an LLM classification endpoint produces a labeled input-output pair already retained in production logs. These pairs constitute a free, growing training set: a lightweight surrogate trained on them can absorb a significant portion of future traffic at near-zero marginal inference cost. The open questions are when the surrogate is reliable enough to deploy, what it handles versus defers, and how that boundary evolves as data accumulates. We introduce TRACER (Trace-based Adaptive Cost-Efficient Routing), an open-source system that trains ML surrogates on an LLM's own production traces and governs deployment through a parity gate: the surrogate is activated only when its agreement with the LLM exceeds a user-specified threshold α. To make the routing boundary transparent, TRACER generates interpretability artifacts describing which input regions the surrogate handles, where it plateaus, and why it defers. On a 77-class intent benchmark with a Sonnet 4.6 teacher, TRACER achieves 83-100% surrogate coverage depending on the quality target α; on a 150-class benchmark, the surrogate fully replaces the teacher. On a natural language inference task, the parity gate correctly refuses deployment because the embedding representation cannot support reliable separation. The system is available as open-source software.

TRACER: Spurverfolgungsbasierte adaptive und kosteneffiziente Routing-Strategie für die LLM-Klassifikation

TRACER: Trace-Based Adaptive Cost-Efficient Routing for LLM Classification

Zusammenfassung

Support