엔트로피 센티넬: STEM 분야 디코딩 엔트로피 트레이스를 통한 LLM 정확도 지속 모니터링
Entropy Sentinel: Continuous LLM Accuracy Monitoring from Decoding Entropy Traces in STEM
January 13, 2026
저자: Pedro Memoli Buffa, Luciano Del Corro
cs.AI
초록
LLM 배포에는 두 가지 상호 연관된 과제가 제기됩니다: (1) 모니터링 - 트래픽과 도메인이 변화함에 따라 모델이 어디서 성능이 저하되는지 추정하는 것, (2) 개선 - 가장 큰 성능 격차를 해소하기 위해 데이터 수집 우선순위를 정하는 것입니다. 우리는 추론 시그널이 도메인 변화 하에서 슬라이스 수준 정확도를 추정할 수 있는지 테스트합니다. 각 응답에 대해 최종 레이어의 다음 토큰 확률(상위 k개 로그확률 기준)로부터 출력 엔트로피 프로파일을 계산하고 이를 11가지 통계량으로 요약합니다. 경량 분류기가 인스턴스 정확도를 예측하며, 예측된 확률을 평균화하면 도메인 수준 정확도 추정치를 얻습니다. 우리는 10개의 STEM 추론 벤치마크에서 포괄적인 훈련/테스트 구성(k는 {1,2,3,4}; 모든 "10개 중 k개 선택" 조합)과 6개 계열의 9개 LLM(3B-20B)을 대상으로 평가를 수행했습니다. 추정치는 종종 비공개 벤치마크 정확도를 추적하며, 여러 모델에서 도메인의 거의 단조로운 순서가 관찰됩니다. 따라서 출력 엔트로피 프로파일은 확장 가능한 모니터링과 데이터 수집 대상 선정을 위한 접근 가능한 시그널입니다.
English
Deploying LLMs raises two coupled challenges: (1) monitoring - estimating where a model underperforms as traffic and domains drift - and (2) improvement - prioritizing data acquisition to close the largest performance gaps. We test whether an inference-time signal can estimate slice-level accuracy under domain shift. For each response, we compute an output-entropy profile from final-layer next-token probabilities (from top-k logprobs) and summarize it with eleven statistics. A lightweight classifier predicts instance correctness, and averaging predicted probabilities yields a domain-level accuracy estimate. We evaluate on ten STEM reasoning benchmarks with exhaustive train/test compositions (k in {1,2,3,4}; all "10 choose k" combinations), across nine LLMs from six families (3B-20B). Estimates often track held-out benchmark accuracy, and several models show near-monotonic ordering of domains. Output-entropy profiles are thus an accessible signal for scalable monitoring and for targeting data acquisition.