ChatPaper.aiChatPaper

Entropiebewaker: Continue Nauwkeurigheidsmonitoring van LLM's via Decodering van Entropiesporen in STEM

Entropy Sentinel: Continuous LLM Accuracy Monitoring from Decoding Entropy Traces in STEM

January 13, 2026
Auteurs: Pedro Memoli Buffa, Luciano Del Corro
cs.AI

Samenvatting

Het inzetten van Large Language Models (LLM's) brengt twee gekoppelde uitdagingen met zich mee: (1) monitoring - het inschatten waar een model onderpresteert naarmate verkeer en domeinen veranderen - en (2) verbetering - het prioriteren van data-acquisitie om de grootste prestatiekloof te dichten. Wij testen of een signaal tijdens de inferentiefase de nauwkeurigheid op snipperniveau onder domeinverschuiving kan schatten. Voor elk antwoord berekenen we een uitvoer-entropieprofiel op basis van de next-token-kansverdelingen in de laatste laag (afgeleid van top-k logprobs) en vatten dit samen met elf statistieken. Een lichtgewicht classificatiemodel voorspelt de correctheid per instantie, en het middelen van de voorspelde kansen levert een schatting van de nauwkeurigheid op domeinniveau op. We evalueren de methode op tien STEM-redeneerbenchmarks met uitgebreide train/test-combinaties (k in {1,2,3,4}; alle "10 choose k" combinaties), over negen LLM's uit zes families (3B-20B). De schattingen volgen vaak de verborgen benchmarknauwkeurigheid, en verschillende modellen vertonen een bijna-monotone ordening van domeinen. Uitvoer-entropieprofielen vormen dus een toegankelijk signaal voor schaalbare monitoring en voor het gericht aansturen van data-acquisitie.
English
Deploying LLMs raises two coupled challenges: (1) monitoring - estimating where a model underperforms as traffic and domains drift - and (2) improvement - prioritizing data acquisition to close the largest performance gaps. We test whether an inference-time signal can estimate slice-level accuracy under domain shift. For each response, we compute an output-entropy profile from final-layer next-token probabilities (from top-k logprobs) and summarize it with eleven statistics. A lightweight classifier predicts instance correctness, and averaging predicted probabilities yields a domain-level accuracy estimate. We evaluate on ten STEM reasoning benchmarks with exhaustive train/test compositions (k in {1,2,3,4}; all "10 choose k" combinations), across nine LLMs from six families (3B-20B). Estimates often track held-out benchmark accuracy, and several models show near-monotonic ordering of domains. Output-entropy profiles are thus an accessible signal for scalable monitoring and for targeting data acquisition.
PDF173February 27, 2026