TRACER: Instradamento Adattivo ed Efficiente in Termini di Costo Basato su Tracce per la Classificazione LLM

Abstract

Ogni chiamata a un endpoint di classificazione LLM produce una coppia input-output etichettata già conservata nei log di produzione. Queste coppie costituiscono un set di addestramento gratuito e in crescita: un surrogato leggero addestrato su di esse può assorbire una porzione significativa del traffico futuro a un costo inferenziale marginale quasi nullo. Le questioni aperte sono quando il surrogato è sufficientemente affidabile per essere distribuito, cosa gestisce rispetto a cosa rinvia, e come questo confine si evolve con l'accumularsi dei dati. Presentiamo TRACER (Trace-based Adaptive Cost-Efficient Routing), un sistema open-source che addestra surrogati di ML sulle tracce di produzione dell'LLM stesso e ne governa la distribuzione attraverso un gate di parità: il surrogato viene attivato solo quando il suo accordo con l'LLM supera una soglia α specificata dall'utente. Per rendere trasparente il confine di instradamento, TRACER genera artefatti di interpretabilità che descrivono quali regioni di input il surrogato gestisce, dove raggiunge un plateau e perché rinvia. Su un benchmark di intenti a 77 classi con un insegnante Sonnet 4.6, TRACER raggiunge una copertura del surrogato compresa tra l'83% e il 100%, a seconda dell'obiettivo di qualità α; su un benchmark a 150 classi, il surrogato sostituisce completamente l'insegnante. Su un task di inferenza del linguaggio naturale, il gate di parità rifiuta correttamente la distribuzione perché la rappresentazione vettoriale non supporta una separazione affidabile. Il sistema è disponibile come software open-source.

English

Every call to an LLM classification endpoint produces a labeled input-output pair already retained in production logs. These pairs constitute a free, growing training set: a lightweight surrogate trained on them can absorb a significant portion of future traffic at near-zero marginal inference cost. The open questions are when the surrogate is reliable enough to deploy, what it handles versus defers, and how that boundary evolves as data accumulates. We introduce TRACER (Trace-based Adaptive Cost-Efficient Routing), an open-source system that trains ML surrogates on an LLM's own production traces and governs deployment through a parity gate: the surrogate is activated only when its agreement with the LLM exceeds a user-specified threshold α. To make the routing boundary transparent, TRACER generates interpretability artifacts describing which input regions the surrogate handles, where it plateaus, and why it defers. On a 77-class intent benchmark with a Sonnet 4.6 teacher, TRACER achieves 83-100% surrogate coverage depending on the quality target α; on a 150-class benchmark, the surrogate fully replaces the teacher. On a natural language inference task, the parity gate correctly refuses deployment because the embedding representation cannot support reliable separation. The system is available as open-source software.

TRACER: Instradamento Adattivo ed Efficiente in Termini di Costo Basato su Tracce per la Classificazione LLM

TRACER: Trace-Based Adaptive Cost-Efficient Routing for LLM Classification

Abstract

Support