ChatPaper.aiChatPaper

強化学習による大規模言語モデルにおける階層的推論の創発

Emergent Hierarchical Reasoning in LLMs through Reinforcement Learning

September 3, 2025
著者: Haozhe Wang, Qixin Xu, Che Liu, Junhong Wu, Fangzhen Lin, Wenhu Chen
cs.AI

要旨

強化学習(Reinforcement Learning, RL)は、大規模言語モデル(Large Language Models, LLMs)の複雑な推論能力を向上させる上で非常に効果的であることが証明されているが、その成功を支える根本的なメカニズムは依然として不明瞭である。我々の分析によると、「ひらめきの瞬間(aha moments)」、「長さスケーリング(length-scaling)」、エントロピー動力学といった不可解な現象は、ばらばらに発生する事象ではなく、人間の認知における高レベルの戦略的計画と低レベルの手続き的実行の分離に類似した、新たに出現する推論階層の特徴であることが明らかとなった。我々は、二段階の動的プロセスを発見した:最初に、モデルは手続き的正しさに制約され、低レベルのスキルを向上させる必要がある。その後、学習のボトルネックが決定的に移行し、高レベルの戦略的計画の探索と習熟が性能向上を牽引する。この洞察は、GRPOのような既存のRLアルゴリズムの核心的な非効率性を明らかにするものであり、これらのアルゴリズムは最適化圧力を無差別に適用し、すべてのトークンにわたって学習信号を希釈してしまう。この問題に対処するため、我々は高インパクトな計画トークンに最適化努力を集中させる階層認識型クレジット割り当て(HIerarchy-Aware Credit Assignment, HICRA)アルゴリズムを提案する。HICRAは強力なベースラインを大幅に上回り、この戦略的ボトルネックに焦点を当てることが高度な推論を解き放つ鍵であることを示している。さらに、トークンレベルのエントロピーのような誤解を招く指標ではなく、戦略的探索を測定するための優れたコンパスとしてセマンティックエントロピーを検証した。
English
Reinforcement Learning (RL) has proven highly effective at enhancing the complex reasoning abilities of Large Language Models (LLMs), yet underlying mechanisms driving this success remain largely opaque. Our analysis reveals that puzzling phenomena like ``aha moments", ``length-scaling'' and entropy dynamics are not disparate occurrences but hallmarks of an emergent reasoning hierarchy, akin to the separation of high-level strategic planning from low-level procedural execution in human cognition. We uncover a compelling two-phase dynamic: initially, a model is constrained by procedural correctness and must improve its low-level skills. The learning bottleneck then decisively shifts, with performance gains being driven by the exploration and mastery of high-level strategic planning. This insight exposes a core inefficiency in prevailing RL algorithms like GRPO, which apply optimization pressure agnostically and dilute the learning signal across all tokens. To address this, we propose HIerarchy-Aware Credit Assignment (HICRA), an algorithm that concentrates optimization efforts on high-impact planning tokens. HICRA significantly outperforms strong baselines, demonstrating that focusing on this strategic bottleneck is key to unlocking advanced reasoning. Furthermore, we validate semantic entropy as a superior compass for measuring strategic exploration over misleading metrics such as token-level entropy.
PDF232September 10, 2025