Raisonnement hiérarchique émergent dans les LLM grâce à l'apprentissage par renforcement
Emergent Hierarchical Reasoning in LLMs through Reinforcement Learning
September 3, 2025
papers.authors: Haozhe Wang, Qixin Xu, Che Liu, Junhong Wu, Fangzhen Lin, Wenhu Chen
cs.AI
papers.abstract
L'apprentissage par renforcement (Reinforcement Learning, RL) s'est avéré extrêmement efficace pour améliorer les capacités de raisonnement complexe des grands modèles de langage (Large Language Models, LLMs). Cependant, les mécanismes sous-jacents à ce succès restent largement opaques. Notre analyse révèle que des phénomènes intrigants tels que les « moments eurêka », le « scaling de longueur » et la dynamique de l'entropie ne sont pas des occurrences disparates, mais plutôt des caractéristiques d'une hiérarchie de raisonnement émergente, semblable à la séparation entre la planification stratégique de haut niveau et l'exécution procédurale de bas niveau dans la cognition humaine. Nous découvrons une dynamique en deux phases : initialement, un modèle est contraint par la justesse procédurale et doit améliorer ses compétences de bas niveau. Le goulot d'étranglement de l'apprentissage se déplace ensuite de manière décisive, les gains de performance étant alors pilotés par l'exploration et la maîtrise de la planification stratégique de haut niveau. Cette observation met en lumière une inefficacité fondamentale des algorithmes RL dominants comme GRPO, qui appliquent une pression d'optimisation de manière agnostique et diluent le signal d'apprentissage sur tous les tokens. Pour y remédier, nous proposons HIerarchy-Aware Credit Assignment (HICRA), un algorithme qui concentre les efforts d'optimisation sur les tokens de planification à fort impact. HICRA surpasse significativement les modèles de référence, démontrant que se concentrer sur ce goulot d'étranglement stratégique est essentiel pour débloquer un raisonnement avancé. Par ailleurs, nous validons l'entropie sémantique comme un indicateur supérieur pour mesurer l'exploration stratégique, par rapport à des métriques trompeuses telles que l'entropie au niveau des tokens.
English
Reinforcement Learning (RL) has proven highly effective at enhancing the
complex reasoning abilities of Large Language Models (LLMs), yet underlying
mechanisms driving this success remain largely opaque. Our analysis reveals
that puzzling phenomena like ``aha moments", ``length-scaling'' and entropy
dynamics are not disparate occurrences but hallmarks of an emergent reasoning
hierarchy, akin to the separation of high-level strategic planning from
low-level procedural execution in human cognition. We uncover a compelling
two-phase dynamic: initially, a model is constrained by procedural correctness
and must improve its low-level skills. The learning bottleneck then decisively
shifts, with performance gains being driven by the exploration and mastery of
high-level strategic planning. This insight exposes a core inefficiency in
prevailing RL algorithms like GRPO, which apply optimization pressure
agnostically and dilute the learning signal across all tokens. To address this,
we propose HIerarchy-Aware Credit Assignment (HICRA), an algorithm that
concentrates optimization efforts on high-impact planning tokens. HICRA
significantly outperforms strong baselines, demonstrating that focusing on this
strategic bottleneck is key to unlocking advanced reasoning. Furthermore, we
validate semantic entropy as a superior compass for measuring strategic
exploration over misleading metrics such as token-level entropy.