ChatPaper.aiChatPaper

エントロピー・センチネル:STEM分野におけるデコーディングエントロピートレースからのLLM精度連続監視

Entropy Sentinel: Continuous LLM Accuracy Monitoring from Decoding Entropy Traces in STEM

January 13, 2026
著者: Pedro Memoli Buffa, Luciano Del Corro
cs.AI

要旨

大規模言語モデル(LLM)の導入には、相互に関連する2つの課題が存在する:(1) モニタリング - トラフィックやドメインの変動に伴い、モデルがどの領域で性能不足に陥っているかを推定すること、(2) 改善 - 最大の性能ギャップを埋めるためにデータ収集の優先順位を決定すること。本研究では、推論時の信号がドメインシフト下におけるスライス単位の精度を推定できるかどうかを検証する。各応答に対して、最終層の次トークン確率(トップkの対数確率から算出)に基づく出力エントロピープロファイルを計算し、11の統計量で要約する。軽量な分類器が個々の事例の正誤を予測し、予測確率を平均化することでドメインレベルの精度推定値を得る。10のSTEM推論ベンチマークを用い、網羅的な訓練/テスト構成(k∈{1,2,3,4}、全ての「10個からk個を選択」する組み合わせ)と、6ファミリーにわたる9つのLLM(3B-20B)で評価を実施。推定値は多くの場合、検証用ベンチマーク精度を追従し、複数のモデルでドメインのほぼ単調な順序付けが確認された。出力エントロピープロファイルは、スケーラブルなモニタリングとデータ収集の優先順位決定において有用な信号であることが示された。
English
Deploying LLMs raises two coupled challenges: (1) monitoring - estimating where a model underperforms as traffic and domains drift - and (2) improvement - prioritizing data acquisition to close the largest performance gaps. We test whether an inference-time signal can estimate slice-level accuracy under domain shift. For each response, we compute an output-entropy profile from final-layer next-token probabilities (from top-k logprobs) and summarize it with eleven statistics. A lightweight classifier predicts instance correctness, and averaging predicted probabilities yields a domain-level accuracy estimate. We evaluate on ten STEM reasoning benchmarks with exhaustive train/test compositions (k in {1,2,3,4}; all "10 choose k" combinations), across nine LLMs from six families (3B-20B). Estimates often track held-out benchmark accuracy, and several models show near-monotonic ordering of domains. Output-entropy profiles are thus an accessible signal for scalable monitoring and for targeting data acquisition.
PDF102January 20, 2026