ChatPaper.aiChatPaper

Энтропийный дозор: непрерывный мониторинг точности больших языковых моделей на основе анализа энтропийных следов декодирования в STEM-областях

Entropy Sentinel: Continuous LLM Accuracy Monitoring from Decoding Entropy Traces in STEM

January 13, 2026
Авторы: Pedro Memoli Buffa, Luciano Del Corro
cs.AI

Аннотация

Развертывание больших языковых моделей порождает две взаимосвязанные проблемы: (1) мониторинг — оценку областей, где модель работает неудовлетворительно, по мере смещения трафика и доменов, и (2) улучшение — определение приоритетов сбора данных для устранения наиболее значительных пробелов в производительности. Мы проверяем, может ли сигнал во время вывода оценить точность на уровне срезов данных в условиях смещения домена. Для каждого ответа мы вычисляем профиль энтропии выхода на основе вероятностей следующего токена из последнего слоя (из топ-k логарифмических вероятностей) и суммируем его с помощью одиннадцати статистик. Легковесный классификатор предсказывает корректность отдельного примера, а усреднение предсказанных вероятностей дает оценку точности на уровне домена. Мы проводим оценку на десяти тестах для STEM-рассуждений с исчерпывающими комбинациями обучающих и тестовых наборов (k в {1,2,3,4}; все комбинации "10 choose k") для девяти моделей из шести семейств (3B-20B). Оценки часто соответствуют отложенной точности тестов, и несколько моделей демонстрируют почти монотонное упорядочивание доменов. Таким образом, профили энтропии выхода являются доступным сигналом для масштабируемого мониторинга и целевого сбора данных.
English
Deploying LLMs raises two coupled challenges: (1) monitoring - estimating where a model underperforms as traffic and domains drift - and (2) improvement - prioritizing data acquisition to close the largest performance gaps. We test whether an inference-time signal can estimate slice-level accuracy under domain shift. For each response, we compute an output-entropy profile from final-layer next-token probabilities (from top-k logprobs) and summarize it with eleven statistics. A lightweight classifier predicts instance correctness, and averaging predicted probabilities yields a domain-level accuracy estimate. We evaluate on ten STEM reasoning benchmarks with exhaustive train/test compositions (k in {1,2,3,4}; all "10 choose k" combinations), across nine LLMs from six families (3B-20B). Estimates often track held-out benchmark accuracy, and several models show near-monotonic ordering of domains. Output-entropy profiles are thus an accessible signal for scalable monitoring and for targeting data acquisition.
PDF102January 20, 2026