ChatPaper.aiChatPaper

LLM推論における均一情報密度仮説の再検討 トレース

Revisiting the Uniform Information Density Hypothesis in LLM Reasoning Traces

October 8, 2025
著者: Minju Gwak, Guijin Son, Jaehyung Kim
cs.AI

要旨

均一情報密度(Uniform Information Density, UID)仮説は、効果的なコミュニケーションが情報の安定した流れを維持することを示唆している。本研究では、大規模言語モデル(LLM)の推論トレースの文脈においてこの原則を再検討し、ステップレベルの均一性が推論の質を反映するかどうかを問う。この目的のために、エントロピーに基づくステップごとの情報密度指標を提案し、局所的および全体的な均一性スコアという2つの補完的な均一性尺度を導入する。6つの異なる推論ベンチマークでの実験を通じて、ステップレベルの均一性が強力な理論的視点を提供するだけでなく、実用的な性能向上をもたらすことが明らかとなった。例えば、ステップレベルでより均一な情報密度を持つ推論トレースを選択することで、AIME2025におけるベースラインに対して10-32%の相対的な精度向上が得られた。さらに、分析の結果、正しい推論トレースは情報密度の急激なスパイクを避ける傾向がある一方で、誤ったトレースは不規則な情報のバーストを示すことが明らかとなった。これらの結果は、UIDに着想を得た情報密度指標が、推論の質を予測するための代替的な内部信号を凌駕することを示している。結果は、情報密度の均一性が、より信頼性が高く正確な推論システムを構築するための堅牢な診断および選択基準として有効であることを強調している。
English
The Uniform Information Density (UID) hypothesis suggests that effective communication maintains a stable flow of information. In this work, we revisit this principle in the context of large language model (LLM) reasoning traces, asking whether step-level uniformity reflects reasoning quality. To this end, we propose an entropy-based stepwise information density metric and introduce two complementary measures of uniformity, local and global uniformity scores. Across the experiments on six different reasoning benchmarks, we find that step-level uniformity not only provides a strong theoretical lens but also yields practical performance benefits; for example, selecting reasoning traces with more uniform information density at the step-level improves accuracy by 10-32\% relative gains over baselines at AIME2025. Our analysis further reveals that correct reasoning traces tend to avoid sharp information density spikes, while incorrect traces exhibit irregular information bursts. These results demonstrate that UID-inspired information density measures outperform alternative internal signals as predictors of reasoning quality. Results highlight the uniformity of the information density as a robust diagnostic and selection criterion for building more reliable and accurate reasoning systems.
PDF52October 9, 2025