강화 학습을 통한 대형 언어 모델의 계층적 추론 능력의 출현
Emergent Hierarchical Reasoning in LLMs through Reinforcement Learning
September 3, 2025
저자: Haozhe Wang, Qixin Xu, Che Liu, Junhong Wu, Fangzhen Lin, Wenhu Chen
cs.AI
초록
강화 학습(Reinforcement Learning, RL)은 대규모 언어 모델(Large Language Models, LLMs)의 복잡한 추론 능력을 향상시키는 데 매우 효과적인 것으로 입증되었지만, 이러한 성공을 이끄는 근본적인 메커니즘은 여전히 대부분 불투명합니다. 우리의 분석에 따르면, "아하 순간", "길이 스케일링", 엔트로피 역학과 같은 수수께끼 같은 현상들은 서로 무관한 사건들이 아니라, 인간 인지에서 고차원 전략적 계획과 저차원 절차적 실행이 분리되는 것과 유사한, 발생적 추론 계층 구조의 특징입니다. 우리는 두 단계의 역동성을 발견했습니다: 초기에는 모델이 절차적 정확성에 제약을 받으며 저수준 기술을 개선해야 합니다. 그런 다음 학습 병목 현상이 결정적으로 이동하며, 성능 향상은 고차원 전략적 계획의 탐색과 숙달에 의해 주도됩니다. 이러한 통찰은 GRPO와 같은 기존 RL 알고리즘의 핵심 비효율성을 드러냅니다. 이 알고리즘들은 최적화 압력을 무차별적으로 적용하고 모든 토큰에 걸쳐 학습 신호를 희석시킵니다. 이를 해결하기 위해, 우리는 HIerarchy-Aware Credit Assignment(HICRA)를 제안합니다. 이 알고리즘은 고영향 전략 토큰에 최적화 노력을 집중시킵니다. HICRA는 강력한 베이스라인을 크게 능가하며, 이 전략적 병목 현상에 초점을 맞추는 것이 고급 추론을 해제하는 데 핵심임을 보여줍니다. 또한, 우리는 토큰 수준 엔트로피와 같은 오해의 소지가 있는 지표보다 전략적 탐색을 측정하는 데 더 우수한 나침반으로서 의미론적 엔트로피를 검증합니다.
English
Reinforcement Learning (RL) has proven highly effective at enhancing the
complex reasoning abilities of Large Language Models (LLMs), yet underlying
mechanisms driving this success remain largely opaque. Our analysis reveals
that puzzling phenomena like ``aha moments", ``length-scaling'' and entropy
dynamics are not disparate occurrences but hallmarks of an emergent reasoning
hierarchy, akin to the separation of high-level strategic planning from
low-level procedural execution in human cognition. We uncover a compelling
two-phase dynamic: initially, a model is constrained by procedural correctness
and must improve its low-level skills. The learning bottleneck then decisively
shifts, with performance gains being driven by the exploration and mastery of
high-level strategic planning. This insight exposes a core inefficiency in
prevailing RL algorithms like GRPO, which apply optimization pressure
agnostically and dilute the learning signal across all tokens. To address this,
we propose HIerarchy-Aware Credit Assignment (HICRA), an algorithm that
concentrates optimization efforts on high-impact planning tokens. HICRA
significantly outperforms strong baselines, demonstrating that focusing on this
strategic bottleneck is key to unlocking advanced reasoning. Furthermore, we
validate semantic entropy as a superior compass for measuring strategic
exploration over misleading metrics such as token-level entropy.