Sentinella dell'Entropia: Monitoraggio Continuo dell'Accuratezza degli LLM tramite le Tracce di Entropia di Decodifica nell'Area STEM
Entropy Sentinel: Continuous LLM Accuracy Monitoring from Decoding Entropy Traces in STEM
January 13, 2026
Autori: Pedro Memoli Buffa, Luciano Del Corro
cs.AI
Abstract
Il deployment di LLM solleva due sfide interconnesse: (1) monitoraggio - stimare dove un modello underperforma al variare del traffico e dei domini - e (2) miglioramento - prioritizzare l'acquisizione di dati per colmare i maggiori gap prestazionali. Testiamo se un segnale in fase di inference possa stimare l'accuratezza a livello di slice sotto domain shift. Per ogni risposta, calcoliamo un profilo di entropia dell'output dalle probabilità del token successivo nell'ultimo layer (dai top-k logprobs) e lo sintetizziamo con undici statistiche. Un classificatore leggero predice la correttezza dell'istanza, e la media delle probabilità predette fornisce una stima dell'accuratezza a livello di dominio. Valutiamo su dieci benchmark di ragionamento STEM con composizioni exhaustive train/test (k in {1,2,3,4}; tutte le combinazioni "10 choose k"), su nove LLM da sei famiglie (3B-20B). Le stime spesso tracciano l'accuratezza benchmark held-out, e diversi modelli mostrano un ordinamento pressoché monotono dei domini. I profili di entropia dell'output si rivelano quindi un segnale accessibile per il monitoraggio scalabile e per indirizzare l'acquisizione di dati.
English
Deploying LLMs raises two coupled challenges: (1) monitoring - estimating where a model underperforms as traffic and domains drift - and (2) improvement - prioritizing data acquisition to close the largest performance gaps. We test whether an inference-time signal can estimate slice-level accuracy under domain shift. For each response, we compute an output-entropy profile from final-layer next-token probabilities (from top-k logprobs) and summarize it with eleven statistics. A lightweight classifier predicts instance correctness, and averaging predicted probabilities yields a domain-level accuracy estimate. We evaluate on ten STEM reasoning benchmarks with exhaustive train/test compositions (k in {1,2,3,4}; all "10 choose k" combinations), across nine LLMs from six families (3B-20B). Estimates often track held-out benchmark accuracy, and several models show near-monotonic ordering of domains. Output-entropy profiles are thus an accessible signal for scalable monitoring and for targeting data acquisition.