Sentinela de Entropia: Monitoramento Contínuo da Precisão de LLMs por meio de Rastros de Entropia de Decodificação em STEM
Entropy Sentinel: Continuous LLM Accuracy Monitoring from Decoding Entropy Traces in STEM
January 13, 2026
Autores: Pedro Memoli Buffa, Luciano Del Corro
cs.AI
Resumo
A implantação de LLMs apresenta dois desafios interligados: (1) monitoramento - estimar onde um modelo tem desempenho inferior à medida que o tráfego e os domínios se desviam - e (2) melhoria - priorizar a aquisição de dados para fechar as maiores lacunas de desempenho. Testamos se um sinal em tempo de inferência pode estimar a precisão a nível de *slice* sob mudança de domínio. Para cada resposta, calculamos um perfil de entropia da saída a partir das probabilidades do próximo *token* na camada final (a partir dos *logprobs* dos *top-k tokens*) e o resumimos com onze estatísticas. Um classificador leve prevê a correção da instância, e a média das probabilidades previstas produz uma estimativa de precisão a nível de domínio. Avaliamos em dez *benchmarks* de raciocínio STEM com composições exaustivas de treino/teste (k em {1,2,3,4}; todas as combinações "10 escolhe k"), em nove LLMs de seis famílias (3B-20B). As estimativas frequentemente acompanham a precisão do *benchmark* retido, e vários modelos mostram uma ordenação quase monotônica dos domínios. Os perfis de entropia da saída são, portanto, um sinal acessível para monitoramento escalável e para direcionar a aquisição de dados.
English
Deploying LLMs raises two coupled challenges: (1) monitoring - estimating where a model underperforms as traffic and domains drift - and (2) improvement - prioritizing data acquisition to close the largest performance gaps. We test whether an inference-time signal can estimate slice-level accuracy under domain shift. For each response, we compute an output-entropy profile from final-layer next-token probabilities (from top-k logprobs) and summarize it with eleven statistics. A lightweight classifier predicts instance correctness, and averaging predicted probabilities yields a domain-level accuracy estimate. We evaluate on ten STEM reasoning benchmarks with exhaustive train/test compositions (k in {1,2,3,4}; all "10 choose k" combinations), across nine LLMs from six families (3B-20B). Estimates often track held-out benchmark accuracy, and several models show near-monotonic ordering of domains. Output-entropy profiles are thus an accessible signal for scalable monitoring and for targeting data acquisition.