ChatPaper.aiChatPaper

Raciocínio Hierárquico Emergente em LLMs por meio de Aprendizado por Reforço

Emergent Hierarchical Reasoning in LLMs through Reinforcement Learning

September 3, 2025
Autores: Haozhe Wang, Qixin Xu, Che Liu, Junhong Wu, Fangzhen Lin, Wenhu Chen
cs.AI

Resumo

O Aprendizado por Reforço (RL) tem se mostrado altamente eficaz para aprimorar as habilidades de raciocínio complexo de Modelos de Linguagem de Grande Escala (LLMs), porém os mecanismos subjacentes que impulsionam esse sucesso permanecem amplamente obscuros. Nossa análise revela que fenômenos intrigantes como "momentos de insight", "escalonamento de comprimento" e dinâmicas de entropia não são ocorrências isoladas, mas características de uma hierarquia emergente de raciocínio, semelhante à separação entre planejamento estratégico de alto nível e execução procedural de baixo nível na cognição humana. Descobrimos uma dinâmica convincente em duas fases: inicialmente, o modelo é limitado pela correção procedural e precisa aprimorar suas habilidades de baixo nível. O gargalo de aprendizagem então muda decisivamente, com os ganhos de desempenho sendo impulsionados pela exploração e domínio do planejamento estratégico de alto nível. Essa percepção expõe uma ineficiência central nos algoritmos de RL predominantes, como o GRPO, que aplicam pressão de otimização de forma agnóstica e diluem o sinal de aprendizagem em todos os tokens. Para resolver isso, propomos o HIerarchy-Aware Credit Assignment (HICRA), um algoritmo que concentra os esforços de otimização em tokens de planejamento de alto impacto. O HICRA supera significativamente as baselines fortes, demonstrando que focar nesse gargalo estratégico é crucial para desbloquear raciocínios avançados. Além disso, validamos a entropia semântica como uma bússola superior para medir a exploração estratégica em comparação com métricas enganosas, como a entropia em nível de token.
English
Reinforcement Learning (RL) has proven highly effective at enhancing the complex reasoning abilities of Large Language Models (LLMs), yet underlying mechanisms driving this success remain largely opaque. Our analysis reveals that puzzling phenomena like ``aha moments", ``length-scaling'' and entropy dynamics are not disparate occurrences but hallmarks of an emergent reasoning hierarchy, akin to the separation of high-level strategic planning from low-level procedural execution in human cognition. We uncover a compelling two-phase dynamic: initially, a model is constrained by procedural correctness and must improve its low-level skills. The learning bottleneck then decisively shifts, with performance gains being driven by the exploration and mastery of high-level strategic planning. This insight exposes a core inefficiency in prevailing RL algorithms like GRPO, which apply optimization pressure agnostically and dilute the learning signal across all tokens. To address this, we propose HIerarchy-Aware Credit Assignment (HICRA), an algorithm that concentrates optimization efforts on high-impact planning tokens. HICRA significantly outperforms strong baselines, demonstrating that focusing on this strategic bottleneck is key to unlocking advanced reasoning. Furthermore, we validate semantic entropy as a superior compass for measuring strategic exploration over misleading metrics such as token-level entropy.
PDF242September 10, 2025