Entstehende hierarchische Argumentation in LLMs durch Reinforcement Learning
Emergent Hierarchical Reasoning in LLMs through Reinforcement Learning
September 3, 2025
papers.authors: Haozhe Wang, Qixin Xu, Che Liu, Junhong Wu, Fangzhen Lin, Wenhu Chen
cs.AI
papers.abstract
Reinforcement Learning (RL) hat sich als äußerst effektiv erwiesen, um die komplexen Denkfähigkeiten von Large Language Models (LLMs) zu verbessern, doch die zugrunde liegenden Mechanismen, die diesen Erfolg antreiben, bleiben weitgehend undurchsichtig. Unsere Analyse zeigt, dass rätselhafte Phänomene wie „Aha-Momente“, „Längenskalierung“ und Entropiedynamiken keine isolierten Ereignisse sind, sondern Kennzeichen einer entstehenden Denkhierarchie, die der Trennung von hochrangiger strategischer Planung und niedrigrangiger prozeduraler Ausführung in der menschlichen Kognition ähnelt. Wir enthüllen eine überzeugende Zwei-Phasen-Dynamik: Zunächst ist ein Modell durch prozedurale Korrektheit eingeschränkt und muss seine grundlegenden Fähigkeiten verbessern. Der Lernengpass verschiebt sich dann entscheidend, wobei Leistungssteigerungen durch die Erkundung und Beherrschung hochrangiger strategischer Planung angetrieben werden. Diese Erkenntnis offenbart eine zentrale Ineffizienz in gängigen RL-Algorithmen wie GRPO, die den Optimierungsdruck undifferenziert anwenden und das Lernsignal über alle Tokens verdünnen. Um dies zu beheben, schlagen wir HIerarchy-Aware Credit Assignment (HICRA) vor, einen Algorithmus, der die Optimierungsbemühungen auf hochwirksame Planungstokens konzentriert. HICRA übertrifft starke Baselines deutlich und zeigt, dass die Fokussierung auf diesen strategischen Engpass der Schlüssel zur Entfaltung fortgeschrittener Denkfähigkeiten ist. Darüber hinaus validieren wir semantische Entropie als überlegenen Kompass zur Messung strategischer Erkundung gegenüber irreführenden Metriken wie Token-Level-Entropie.
English
Reinforcement Learning (RL) has proven highly effective at enhancing the
complex reasoning abilities of Large Language Models (LLMs), yet underlying
mechanisms driving this success remain largely opaque. Our analysis reveals
that puzzling phenomena like ``aha moments", ``length-scaling'' and entropy
dynamics are not disparate occurrences but hallmarks of an emergent reasoning
hierarchy, akin to the separation of high-level strategic planning from
low-level procedural execution in human cognition. We uncover a compelling
two-phase dynamic: initially, a model is constrained by procedural correctness
and must improve its low-level skills. The learning bottleneck then decisively
shifts, with performance gains being driven by the exploration and mastery of
high-level strategic planning. This insight exposes a core inefficiency in
prevailing RL algorithms like GRPO, which apply optimization pressure
agnostically and dilute the learning signal across all tokens. To address this,
we propose HIerarchy-Aware Credit Assignment (HICRA), an algorithm that
concentrates optimization efforts on high-impact planning tokens. HICRA
significantly outperforms strong baselines, demonstrating that focusing on this
strategic bottleneck is key to unlocking advanced reasoning. Furthermore, we
validate semantic entropy as a superior compass for measuring strategic
exploration over misleading metrics such as token-level entropy.