Пересмотр гипотезы равномерной плотности информации в рассуждениях языковых моделей: анализ траекторий
Revisiting the Uniform Information Density Hypothesis in LLM Reasoning Traces
October 8, 2025
Авторы: Minju Gwak, Guijin Son, Jaehyung Kim
cs.AI
Аннотация
Гипотеза равномерной плотности информации (Uniform Information Density, UID) предполагает, что эффективная коммуникация поддерживает стабильный поток информации. В данной работе мы возвращаемся к этому принципу в контексте трасс рассуждений больших языковых моделей (LLM), задаваясь вопросом, отражает ли равномерность на уровне шагов качество рассуждений. Для этого мы предлагаем метрику пошаговой плотности информации на основе энтропии и вводим две дополнительные меры равномерности: локальный и глобальный показатели равномерности. В ходе экспериментов на шести различных бенчмарках для рассуждений мы обнаруживаем, что равномерность на уровне шагов не только предоставляет мощную теоретическую основу, но и приносит практическую пользу; например, выбор трасс рассуждений с более равномерной плотностью информации на уровне шагов повышает точность на 10–32% относительно базовых показателей на AIME2025. Наш анализ также показывает, что корректные трассы рассуждений склонны избегать резких скачков плотности информации, тогда как некорректные трассы демонстрируют нерегулярные всплески информации. Эти результаты демонстрируют, что меры плотности информации, вдохновленные UID, превосходят альтернативные внутренние сигналы в качестве предикторов качества рассуждений. Результаты подчеркивают равномерность плотности информации как надежный диагностический и селекционный критерий для создания более надежных и точных систем рассуждений.
English
The Uniform Information Density (UID) hypothesis suggests that effective
communication maintains a stable flow of information. In this work, we revisit
this principle in the context of large language model (LLM) reasoning traces,
asking whether step-level uniformity reflects reasoning quality. To this end,
we propose an entropy-based stepwise information density metric and introduce
two complementary measures of uniformity, local and global uniformity scores.
Across the experiments on six different reasoning benchmarks, we find that
step-level uniformity not only provides a strong theoretical lens but also
yields practical performance benefits; for example, selecting reasoning traces
with more uniform information density at the step-level improves accuracy by
10-32\% relative gains over baselines at AIME2025. Our analysis further reveals
that correct reasoning traces tend to avoid sharp information density spikes,
while incorrect traces exhibit irregular information bursts. These results
demonstrate that UID-inspired information density measures outperform
alternative internal signals as predictors of reasoning quality. Results
highlight the uniformity of the information density as a robust diagnostic and
selection criterion for building more reliable and accurate reasoning systems.