ChatPaper.aiChatPaper

TRACER: LLM分類のためのトレースベース適応型コスト効率ルーティング

TRACER: Trace-Based Adaptive Cost-Efficient Routing for LLM Classification

April 16, 2026
著者: Adam Rida
cs.AI

要旨

LLM分類エンドポイントへの各呼び出しは、プロダクションログに既に保持されているラベル付き入力-出力ペアを生成します。これらのペアは、無料で増殖するトレーニングセットを構成します。これらで訓練された軽量なサロゲートモデルは、将来のトラフィックの大部分を、限界推論コストほぼゼロで吸収できます。未解決の課題は、サロゲートをデプロイするのに十分な信頼性がいつ得られるか、サロゲートが処理する内容と defer(先送り)する内容の違い、そしてデータが蓄積されるにつれてその境界がどう進化するかです。 我々はTRACER(Trace-based Adaptive Cost-Efficient Routing)を提案します。これは、LLM自身のプロダクショントレースでMLサロゲートを訓練し、パリティゲートを通じてデプロイを管理するオープンソースシステムです。サロゲートは、LLMとの一致率がユーザー指定の閾値αを超えた場合にのみ活性化されます。ルーティング境界を透明化するため、TRACERは、サロゲートがどの入力領域を処理するか、どこで性能が頭打ちになるか、なぜ defer するのかを説明する解釈可能性の成果物を生成します。 77クラスのインテントベンチマーク(教師モデル:Sonnet 4.6)では、TRACERは品質目標αに応じて83〜100%のサロゲートカバレッジを達成しました。150クラスのベンチマークでは、サロゲートが教師モデルを完全に置き換えました。自然言語推論タスクでは、埋め込み表現が信頼性のある分離をサポートできないため、パリティゲートは正しくデプロイを拒否しました。本システムはオープンソースソフトウェアとして利用可能です。
English
Every call to an LLM classification endpoint produces a labeled input-output pair already retained in production logs. These pairs constitute a free, growing training set: a lightweight surrogate trained on them can absorb a significant portion of future traffic at near-zero marginal inference cost. The open questions are when the surrogate is reliable enough to deploy, what it handles versus defers, and how that boundary evolves as data accumulates. We introduce TRACER (Trace-based Adaptive Cost-Efficient Routing), an open-source system that trains ML surrogates on an LLM's own production traces and governs deployment through a parity gate: the surrogate is activated only when its agreement with the LLM exceeds a user-specified threshold α. To make the routing boundary transparent, TRACER generates interpretability artifacts describing which input regions the surrogate handles, where it plateaus, and why it defers. On a 77-class intent benchmark with a Sonnet 4.6 teacher, TRACER achieves 83-100% surrogate coverage depending on the quality target α; on a 150-class benchmark, the surrogate fully replaces the teacher. On a natural language inference task, the parity gate correctly refuses deployment because the embedding representation cannot support reliable separation. The system is available as open-source software.
PDF62April 18, 2026