ChatPaper.aiChatPaper

Entropie-Wächter: Kontinuierliche Überwachung der LLM-Genauigkeit anhand von Entropie-Spuren beim Decodieren in den MINT-Fächern

Entropy Sentinel: Continuous LLM Accuracy Monitoring from Decoding Entropy Traces in STEM

January 13, 2026
papers.authors: Pedro Memoli Buffa, Luciano Del Corro
cs.AI

papers.abstract

Der Einsatz von LLMs wirft zwei gekoppelte Herausforderungen auf: (1) Monitoring – die Einschätzung, wo ein Modell bei sich verändernden Datenströmen und Domänen schlecht abschneidet – und (2) Verbesserung – die Priorisierung von Datenerfassung, um die größten Leistungslücken zu schließen. Wir testen, ob ein Signal zur Inferenzzeit die Genauigkeit auf Slice-Ebene unter Domänenverschiebung schätzen kann. Für jede Antwort berechnen wir ein Ausgabe-Entropie-Profil aus den Next-Token-Wahrscheinlichkeiten der letzten Schicht (basierend auf Top-k-Logprobs) und fassen es mit elf Statistiken zusammen. Ein leichtgewichtiger Klassifikator sagt die Korrektheit der Instanz vorher, und die Mittelung der vorhergesagten Wahrscheinlichkeiten ergibt eine Schätzung der Genauigkeit auf Domänenebene. Wir evaluieren auf zehn STEM-Reasoning-Benchmarks mit umfassenden Trainings-/Testzusammensetzungen (k in {1,2,3,4}; alle "10 choose k" Kombinationen) über neun LLMs aus sechs Familien (3B-20B). Die Schätzungen bilden oft die ausgeblendete Benchmark-Genauigkeit ab, und mehrere Modelle zeigen eine nahezu monotone Ordnung der Domänen. Ausgabe-Entropie-Profile sind somit ein zugängliches Signal für skalierbares Monitoring und für die zielgerichtete Datenerfassung.
English
Deploying LLMs raises two coupled challenges: (1) monitoring - estimating where a model underperforms as traffic and domains drift - and (2) improvement - prioritizing data acquisition to close the largest performance gaps. We test whether an inference-time signal can estimate slice-level accuracy under domain shift. For each response, we compute an output-entropy profile from final-layer next-token probabilities (from top-k logprobs) and summarize it with eleven statistics. A lightweight classifier predicts instance correctness, and averaging predicted probabilities yields a domain-level accuracy estimate. We evaluate on ten STEM reasoning benchmarks with exhaustive train/test compositions (k in {1,2,3,4}; all "10 choose k" combinations), across nine LLMs from six families (3B-20B). Estimates often track held-out benchmark accuracy, and several models show near-monotonic ordering of domains. Output-entropy profiles are thus an accessible signal for scalable monitoring and for targeting data acquisition.
PDF102January 20, 2026