ChatPaper.aiChatPaper

Centinela de la Entropía: Monitoreo Continuo de la Precisión de LLM a partir del Rastreo de la Entropía de Decodificación en STEM

Entropy Sentinel: Continuous LLM Accuracy Monitoring from Decoding Entropy Traces in STEM

January 13, 2026
Autores: Pedro Memoli Buffa, Luciano Del Corro
cs.AI

Resumen

El despliegue de modelos de lenguaje grandes (LLM) plantea dos desafíos interconectados: (1) la monitorización, que consiste en estimar dónde un modelo tiene un rendimiento deficiente a medida que el tráfico y los dominios cambian, y (2) la mejora, que implica priorizar la adquisición de datos para cerrar las brechas de rendimiento más significativas. Evaluamos si una señal en tiempo de inferencia puede estimar la precisión a nivel de segmento bajo un cambio de dominio. Para cada respuesta, calculamos un perfil de entropía de salida a partir de las probabilidades del siguiente token en la capa final (obtenidas de los logprobs top-k) y lo resumimos con once estadísticos. Un clasificador ligero predice la corrección de cada instancia, y el promedio de las probabilidades predichas produce una estimación de la precisión a nivel de dominio. Evaluamos en diez benchmarks de razonamiento STEM con composiciones exhaustivas de entrenamiento/prueba (k en {1,2,3,4}; todas las combinaciones de "10 elegir k"), a través de nueve LLM de seis familias (3B-20B). Las estimaciones a menudo siguen la precisión del benchmark retenido, y varios modelos muestran un orden casi monótono de los dominios. Por lo tanto, los perfiles de entropía de salida son una señal accesible para una monitorización escalable y para dirigir la adquisición de datos.
English
Deploying LLMs raises two coupled challenges: (1) monitoring - estimating where a model underperforms as traffic and domains drift - and (2) improvement - prioritizing data acquisition to close the largest performance gaps. We test whether an inference-time signal can estimate slice-level accuracy under domain shift. For each response, we compute an output-entropy profile from final-layer next-token probabilities (from top-k logprobs) and summarize it with eleven statistics. A lightweight classifier predicts instance correctness, and averaging predicted probabilities yields a domain-level accuracy estimate. We evaluate on ten STEM reasoning benchmarks with exhaustive train/test compositions (k in {1,2,3,4}; all "10 choose k" combinations), across nine LLMs from six families (3B-20B). Estimates often track held-out benchmark accuracy, and several models show near-monotonic ordering of domains. Output-entropy profiles are thus an accessible signal for scalable monitoring and for targeting data acquisition.
PDF102January 20, 2026