Emergente hiërarchische redeneervaardigheden in LLM's door middel van reinforcement learning
Emergent Hierarchical Reasoning in LLMs through Reinforcement Learning
September 3, 2025
Auteurs: Haozhe Wang, Qixin Xu, Che Liu, Junhong Wu, Fangzhen Lin, Wenhu Chen
cs.AI
Samenvatting
Reinforcement Learning (RL) heeft zich zeer effectief bewezen bij het verbeteren van de complexe redeneervaardigheden van Large Language Models (LLMs), maar de onderliggende mechanismen die dit succes aansturen, blijven grotendeels ondoorzichtig. Onze analyse onthult dat raadselachtige fenomenen zoals "aha-momenten", "length-scaling" en entropiedynamiek geen losstaande gebeurtenissen zijn, maar kenmerken van een emergent redeneerhiërarchie, vergelijkbaar met de scheiding tussen hoogstrategische planning en laagniveau procedurele uitvoering in de menselijke cognitie. We ontdekken een overtuigende tweefasendynamiek: aanvankelijk wordt een model beperkt door procedurele correctheid en moet het zijn vaardigheden op laagniveau verbeteren. Het leerproces verschuift vervolgens beslissend, waarbij prestatieverbeteringen worden aangedreven door de exploratie en beheersing van hoogstrategische planning. Dit inzicht legt een kerninefficiëntie bloot in heersende RL-algoritmen zoals GRPO, die optimalisatiedruk ongericht toepassen en het leersignaal verdunnen over alle tokens. Om dit aan te pakken, stellen we HIerarchy-Aware Credit Assignment (HICRA) voor, een algoritme dat optimalisatie-inspanningen concentreert op tokens met een hoge impact op de planning. HICRA presteert aanzienlijk beter dan sterke baseline-methoden, wat aantoont dat het richten op dit strategische knelpunt essentieel is voor het ontgrendelen van geavanceerd redeneren. Bovendien valideren we semantische entropie als een superieure kompas voor het meten van strategische exploratie in vergelijking met misleidende metrieken zoals token-niveau entropie.
English
Reinforcement Learning (RL) has proven highly effective at enhancing the
complex reasoning abilities of Large Language Models (LLMs), yet underlying
mechanisms driving this success remain largely opaque. Our analysis reveals
that puzzling phenomena like ``aha moments", ``length-scaling'' and entropy
dynamics are not disparate occurrences but hallmarks of an emergent reasoning
hierarchy, akin to the separation of high-level strategic planning from
low-level procedural execution in human cognition. We uncover a compelling
two-phase dynamic: initially, a model is constrained by procedural correctness
and must improve its low-level skills. The learning bottleneck then decisively
shifts, with performance gains being driven by the exploration and mastery of
high-level strategic planning. This insight exposes a core inefficiency in
prevailing RL algorithms like GRPO, which apply optimization pressure
agnostically and dilute the learning signal across all tokens. To address this,
we propose HIerarchy-Aware Credit Assignment (HICRA), an algorithm that
concentrates optimization efforts on high-impact planning tokens. HICRA
significantly outperforms strong baselines, demonstrating that focusing on this
strategic bottleneck is key to unlocking advanced reasoning. Furthermore, we
validate semantic entropy as a superior compass for measuring strategic
exploration over misleading metrics such as token-level entropy.