Réexamen de l'hypothèse de densité uniforme de l'information dans les traces de raisonnement des LLM
Revisiting the Uniform Information Density Hypothesis in LLM Reasoning Traces
October 8, 2025
papers.authors: Minju Gwak, Guijin Son, Jaehyung Kim
cs.AI
papers.abstract
L'hypothèse de la Densité Uniforme d'Information (UID) suggère qu'une communication efficace maintient un flux d'information stable. Dans ce travail, nous revisitons ce principe dans le contexte des traces de raisonnement des grands modèles de langage (LLM), en nous demandant si l'uniformité au niveau des étapes reflète la qualité du raisonnement. À cette fin, nous proposons une métrique de densité d'information pas à pas basée sur l'entropie et introduisons deux mesures complémentaires d'uniformité : les scores d'uniformité locale et globale. À travers des expériences sur six benchmarks de raisonnement différents, nous constatons que l'uniformité au niveau des étapes offre non seulement une perspective théorique solide, mais apporte également des avantages pratiques en termes de performance ; par exemple, la sélection de traces de raisonnement avec une densité d'information plus uniforme au niveau des étapes améliore la précision avec des gains relatifs de 10 à 32 % par rapport aux bases de référence à AIME2025. Notre analyse révèle en outre que les traces de raisonnement correctes tendent à éviter les pics abrupts de densité d'information, tandis que les traces incorrectes présentent des irrégularités sous forme de pics d'information. Ces résultats démontrent que les mesures de densité d'information inspirées par l'UID surpassent d'autres signaux internes comme prédicteurs de la qualité du raisonnement. Les résultats soulignent l'uniformité de la densité d'information comme un critère robuste de diagnostic et de sélection pour construire des systèmes de raisonnement plus fiables et précis.
English
The Uniform Information Density (UID) hypothesis suggests that effective
communication maintains a stable flow of information. In this work, we revisit
this principle in the context of large language model (LLM) reasoning traces,
asking whether step-level uniformity reflects reasoning quality. To this end,
we propose an entropy-based stepwise information density metric and introduce
two complementary measures of uniformity, local and global uniformity scores.
Across the experiments on six different reasoning benchmarks, we find that
step-level uniformity not only provides a strong theoretical lens but also
yields practical performance benefits; for example, selecting reasoning traces
with more uniform information density at the step-level improves accuracy by
10-32\% relative gains over baselines at AIME2025. Our analysis further reveals
that correct reasoning traces tend to avoid sharp information density spikes,
while incorrect traces exhibit irregular information bursts. These results
demonstrate that UID-inspired information density measures outperform
alternative internal signals as predictors of reasoning quality. Results
highlight the uniformity of the information density as a robust diagnostic and
selection criterion for building more reliable and accurate reasoning systems.