Ragionamento gerarchico emergente nei LLM attraverso l'apprendimento per rinforzo
Emergent Hierarchical Reasoning in LLMs through Reinforcement Learning
September 3, 2025
Autori: Haozhe Wang, Qixin Xu, Che Liu, Junhong Wu, Fangzhen Lin, Wenhu Chen
cs.AI
Abstract
L'apprendimento per rinforzo (Reinforcement Learning, RL) si è dimostrato estremamente efficace nel potenziare le capacità di ragionamento complesso dei Modelli Linguistici di Grande Scala (Large Language Models, LLMs), tuttavia i meccanismi sottostanti che guidano questo successo rimangono in gran parte oscuri. La nostra analisi rivela che fenomeni intriganti come i "momenti di intuizione", lo "scaling della lunghezza" e la dinamica dell'entropia non sono eventi isolati, ma segni distintivi di una gerarchia di ragionamento emergente, simile alla separazione tra pianificazione strategica di alto livello ed esecuzione procedurale di basso livello nella cognizione umana. Scopriamo una dinamica affascinante in due fasi: inizialmente, un modello è vincolato dalla correttezza procedurale e deve migliorare le sue abilità di basso livello. Il collo di bottiglia dell'apprendimento si sposta poi decisamente, con i guadagni di prestazioni guidati dall'esplorazione e dalla padronanza della pianificazione strategica di alto livello. Questa intuizione rivela un'inefficienza fondamentale negli algoritmi RL prevalenti come GRPO, che applicano pressione di ottimizzazione in modo agnostico e diluiscono il segnale di apprendimento su tutti i token. Per affrontare questo problema, proponiamo HIerarchy-Aware Credit Assignment (HICRA), un algoritmo che concentra gli sforzi di ottimizzazione sui token di pianificazione ad alto impatto. HICRA supera significativamente i baseline robusti, dimostrando che focalizzarsi su questo collo di bottiglia strategico è fondamentale per sbloccare un ragionamento avanzato. Inoltre, convalidiamo l'entropia semantica come una bussola superiore per misurare l'esplorazione strategica rispetto a metriche fuorvianti come l'entropia a livello di token.
English
Reinforcement Learning (RL) has proven highly effective at enhancing the
complex reasoning abilities of Large Language Models (LLMs), yet underlying
mechanisms driving this success remain largely opaque. Our analysis reveals
that puzzling phenomena like ``aha moments", ``length-scaling'' and entropy
dynamics are not disparate occurrences but hallmarks of an emergent reasoning
hierarchy, akin to the separation of high-level strategic planning from
low-level procedural execution in human cognition. We uncover a compelling
two-phase dynamic: initially, a model is constrained by procedural correctness
and must improve its low-level skills. The learning bottleneck then decisively
shifts, with performance gains being driven by the exploration and mastery of
high-level strategic planning. This insight exposes a core inefficiency in
prevailing RL algorithms like GRPO, which apply optimization pressure
agnostically and dilute the learning signal across all tokens. To address this,
we propose HIerarchy-Aware Credit Assignment (HICRA), an algorithm that
concentrates optimization efforts on high-impact planning tokens. HICRA
significantly outperforms strong baselines, demonstrating that focusing on this
strategic bottleneck is key to unlocking advanced reasoning. Furthermore, we
validate semantic entropy as a superior compass for measuring strategic
exploration over misleading metrics such as token-level entropy.