Sentinelle d'Entropie : Surveillance Continue de la Précision des LLM par l'Analyse des Traces d'Entropie de Décodage en STIM
Entropy Sentinel: Continuous LLM Accuracy Monitoring from Decoding Entropy Traces in STEM
January 13, 2026
papers.authors: Pedro Memoli Buffa, Luciano Del Corro
cs.AI
papers.abstract
Le déploiement de modèles de langage de grande taille (LLM) soulève deux défis interdépendants : (1) la surveillance - estimer les domaines où un modèle sous-performe à mesure que le trafic et les domaines d'application évoluent - et (2) l'amélioration - prioriser l'acquisition de données pour combler les plus grands écarts de performance. Nous testons si un signal au moment de l'inférence peut estimer la précision au niveau des « slices » (sous-ensembles de données) dans un contexte de changement de domaine. Pour chaque réponse, nous calculons un profil d'entropie de sortie à partir des probabilités du token suivant dans la couche finale (obtenues à partir des logprobabilités des top-k tokens) et le résumons à l'aide de onze statistiques. Un classifieur léger prédit l'exactitude de chaque instance, et la moyenne des probabilités prédites fournit une estimation de la précision au niveau du domaine. Nous évaluons cette approche sur dix benchmarks de raisonnement en STEM avec des compositions exhaustives d'entraînement et de test (k dans {1,2,3,4} ; toutes les combinaisons « 10 choix k »), en utilisant neuf LLMs issus de six familles différentes (3B-20B). Les estimations suivent souvent la précision de référence du benchmark, et plusieurs modèles présentent un ordre quasi monotone des domaines. Les profils d'entropie de sortie constituent donc un signal accessible pour une surveillance scalable et pour cibler l'acquisition de données.
English
Deploying LLMs raises two coupled challenges: (1) monitoring - estimating where a model underperforms as traffic and domains drift - and (2) improvement - prioritizing data acquisition to close the largest performance gaps. We test whether an inference-time signal can estimate slice-level accuracy under domain shift. For each response, we compute an output-entropy profile from final-layer next-token probabilities (from top-k logprobs) and summarize it with eleven statistics. A lightweight classifier predicts instance correctness, and averaging predicted probabilities yields a domain-level accuracy estimate. We evaluate on ten STEM reasoning benchmarks with exhaustive train/test compositions (k in {1,2,3,4}; all "10 choose k" combinations), across nine LLMs from six families (3B-20B). Estimates often track held-out benchmark accuracy, and several models show near-monotonic ordering of domains. Output-entropy profiles are thus an accessible signal for scalable monitoring and for targeting data acquisition.