LLM 추론 과정에서 균일 정보 밀도 가설 재검토 흔적
Revisiting the Uniform Information Density Hypothesis in LLM Reasoning Traces
October 8, 2025
저자: Minju Gwak, Guijin Son, Jaehyung Kim
cs.AI
초록
균일 정보 밀도(Uniform Information Density, UID) 가설은 효과적인 의사소통이 안정적인 정보 흐름을 유지한다고 제안한다. 본 연구에서는 대규모 언어 모델(LLM)의 추론 과정에서 이 원칙을 재검토하며, 단계별 균일성이 추론 품질을 반영하는지 탐구한다. 이를 위해 엔트로피 기반의 단계별 정보 밀도 지표를 제안하고, 지역적 및 전역적 균일성 점수라는 두 가지 상호 보완적인 균일성 측정 방법을 소개한다. 여섯 가지 추론 벤치마크에 대한 실험을 통해, 단계별 균일성이 강력한 이론적 통찰을 제공할 뿐만 아니라 실질적인 성능 향상으로 이어짐을 확인했다. 예를 들어, 단계별로 더 균일한 정보 밀도를 가진 추론 과정을 선택하면 AIME2025 기준선 대비 10-32%의 정확도 상대적 향상을 달성했다. 또한, 분석 결과 올바른 추론 과정은 정보 밀도의 급격한 급증을 피하는 반면, 잘못된 추론 과정은 불규칙한 정보 폭발을 보이는 경향이 있음이 밝혀졌다. 이러한 결과는 UID에서 영감을 받은 정보 밀도 측정 방법이 추론 품질 예측을 위한 대안적인 내부 신호보다 우수함을 입증한다. 정보 밀도의 균일성은 더 신뢰할 수 있고 정확한 추론 시스템을 구축하기 위한 강력한 진단 및 선택 기준으로서의 역할을 강조한다.
English
The Uniform Information Density (UID) hypothesis suggests that effective
communication maintains a stable flow of information. In this work, we revisit
this principle in the context of large language model (LLM) reasoning traces,
asking whether step-level uniformity reflects reasoning quality. To this end,
we propose an entropy-based stepwise information density metric and introduce
two complementary measures of uniformity, local and global uniformity scores.
Across the experiments on six different reasoning benchmarks, we find that
step-level uniformity not only provides a strong theoretical lens but also
yields practical performance benefits; for example, selecting reasoning traces
with more uniform information density at the step-level improves accuracy by
10-32\% relative gains over baselines at AIME2025. Our analysis further reveals
that correct reasoning traces tend to avoid sharp information density spikes,
while incorrect traces exhibit irregular information bursts. These results
demonstrate that UID-inspired information density measures outperform
alternative internal signals as predictors of reasoning quality. Results
highlight the uniformity of the information density as a robust diagnostic and
selection criterion for building more reliable and accurate reasoning systems.