ChatPaper.aiChatPaper

TRACER: LLM 분류를 위한 트레이스 기반 적응형 비용 효율 라우팅

TRACER: Trace-Based Adaptive Cost-Efficient Routing for LLM Classification

April 16, 2026
저자: Adam Rida
cs.AI

초록

LLM 분류 엔드포인트에 대한 모든 호출은 프로덕션 로그에 이미 보관된 레이블이 지정된 입력-출력 쌍을 생성합니다. 이러한 쌍은 무료로 성장하는 훈련 데이터셋을 구성하며, 이 데이터로 훈련된 경량 서로게이트는 향후 트래픽의 상당 부분을 거의 제로에 가까운 한계 추론 비용으로 흡수할 수 있습니다. 핵심 과제는 서로게이트를 언제 배포할 수 있을 만큼 신뢰할 수 있는지, 무엇을 처리하고 무엇을 유보하는지, 그리고 데이터가 누적됨에 따라 그 경계가 어떻게 진화하는지입니다. 우리는 TRACER(Trace-based Adaptive Cost-Efficient Routing)를 소개합니다. 이 오픈소스 시스템은 LLM의 자체 프로덕션 트레이스로 ML 서로게이트를 훈련시키고 패리티 게이트를 통해 배포를 관리합니다. 서로게이트는 LLM과의 일치도가 사용자 지정 임계값 α를 초과할 때만 활성화됩니다. 라우팅 경계를 투명하게 만들기 위해 TRACER는 서로게이트가 어떤 입력 영역을 처리하는지, 어디에서 정체되는지, 왜 유보하는지를 설명하는 해석 가능 아티팩트를 생성합니다. Sonnet 4.6을 교사 모델로 사용한 77개 클래스 의도 벤치마크에서 TRACER는 품질 목표 α에 따라 83-100%의 서로게이트 커버리지를 달성했습니다. 150개 클래스 벤치마크에서는 서로게이트가 교사 모델을 완전히 대체했습니다. 자연어 추론 작업에서는 임베딩 표현이 신뢰할 수 있는 분리를 지원할 수 없어 패리티 게이트가 배포를 정확히 거부했습니다. 본 시스템은 오픈소스 소프트웨어로 이용 가능합니다.
English
Every call to an LLM classification endpoint produces a labeled input-output pair already retained in production logs. These pairs constitute a free, growing training set: a lightweight surrogate trained on them can absorb a significant portion of future traffic at near-zero marginal inference cost. The open questions are when the surrogate is reliable enough to deploy, what it handles versus defers, and how that boundary evolves as data accumulates. We introduce TRACER (Trace-based Adaptive Cost-Efficient Routing), an open-source system that trains ML surrogates on an LLM's own production traces and governs deployment through a parity gate: the surrogate is activated only when its agreement with the LLM exceeds a user-specified threshold α. To make the routing boundary transparent, TRACER generates interpretability artifacts describing which input regions the surrogate handles, where it plateaus, and why it defers. On a 77-class intent benchmark with a Sonnet 4.6 teacher, TRACER achieves 83-100% surrogate coverage depending on the quality target α; on a 150-class benchmark, the surrogate fully replaces the teacher. On a natural language inference task, the parity gate correctly refuses deployment because the embedding representation cannot support reliable separation. The system is available as open-source software.
PDF62April 18, 2026