Neubetrachtung der Hypothese der gleichmäßigen Informationsdichte in Denkspuren von LLMs
Revisiting the Uniform Information Density Hypothesis in LLM Reasoning Traces
October 8, 2025
papers.authors: Minju Gwak, Guijin Son, Jaehyung Kim
cs.AI
papers.abstract
Die Hypothese der gleichmäßigen Informationsdichte (Uniform Information Density, UID) besagt, dass effektive Kommunikation einen stabilen Informationsfluss aufrechterhält. In dieser Arbeit untersuchen wir dieses Prinzip im Kontext von Reasoning-Traces großer Sprachmodelle (LLMs) und fragen, ob die Gleichmäßigkeit auf Schritt-Ebene die Qualität des Reasonings widerspiegelt. Zu diesem Zweck schlagen wir eine schrittweise Informationsdichtemessung auf Basis der Entropie vor und führen zwei komplementäre Maße für Gleichmäßigkeit ein: lokale und globale Gleichmäßigkeitswerte. In Experimenten mit sechs verschiedenen Reasoning-Benchmarks stellen wir fest, dass die Gleichmäßigkeit auf Schritt-Ebene nicht nur eine starke theoretische Perspektive bietet, sondern auch praktische Leistungsvorteile mit sich bringt; beispielsweise verbessert die Auswahl von Reasoning-Traces mit gleichmäßigerer Informationsdichte auf Schritt-Ebene die Genauigkeit um relative Gewinne von 10–32 % gegenüber den Baselines bei AIME2025. Unsere Analyse zeigt weiterhin, dass korrekte Reasoning-Traces tendenziell starke Spitzen in der Informationsdichte vermeiden, während inkorrekte Traces unregelmäßige Informationsausbrüche aufweisen. Diese Ergebnisse demonstrieren, dass UID-inspirierte Maße der Informationsdichte alternative interne Signale als Prädiktoren für Reasoning-Qualität übertreffen. Die Ergebnisse unterstreichen die Gleichmäßigkeit der Informationsdichte als robustes Diagnose- und Auswahlkriterium für den Aufbau zuverlässigerer und genauerer Reasoning-Systeme.
English
The Uniform Information Density (UID) hypothesis suggests that effective
communication maintains a stable flow of information. In this work, we revisit
this principle in the context of large language model (LLM) reasoning traces,
asking whether step-level uniformity reflects reasoning quality. To this end,
we propose an entropy-based stepwise information density metric and introduce
two complementary measures of uniformity, local and global uniformity scores.
Across the experiments on six different reasoning benchmarks, we find that
step-level uniformity not only provides a strong theoretical lens but also
yields practical performance benefits; for example, selecting reasoning traces
with more uniform information density at the step-level improves accuracy by
10-32\% relative gains over baselines at AIME2025. Our analysis further reveals
that correct reasoning traces tend to avoid sharp information density spikes,
while incorrect traces exhibit irregular information bursts. These results
demonstrate that UID-inspired information density measures outperform
alternative internal signals as predictors of reasoning quality. Results
highlight the uniformity of the information density as a robust diagnostic and
selection criterion for building more reliable and accurate reasoning systems.