Entstehende hierarchische Argumentation in LLMs durch Reinforcement Learning

papers.abstract

Reinforcement Learning (RL) hat sich als äußerst effektiv erwiesen, um die komplexen Denkfähigkeiten von Large Language Models (LLMs) zu verbessern, doch die zugrunde liegenden Mechanismen, die diesen Erfolg antreiben, bleiben weitgehend undurchsichtig. Unsere Analyse zeigt, dass rätselhafte Phänomene wie „Aha-Momente“, „Längenskalierung“ und Entropiedynamiken keine isolierten Ereignisse sind, sondern Kennzeichen einer entstehenden Denkhierarchie, die der Trennung von hochrangiger strategischer Planung und niedrigrangiger prozeduraler Ausführung in der menschlichen Kognition ähnelt. Wir enthüllen eine überzeugende Zwei-Phasen-Dynamik: Zunächst ist ein Modell durch prozedurale Korrektheit eingeschränkt und muss seine grundlegenden Fähigkeiten verbessern. Der Lernengpass verschiebt sich dann entscheidend, wobei Leistungssteigerungen durch die Erkundung und Beherrschung hochrangiger strategischer Planung angetrieben werden. Diese Erkenntnis offenbart eine zentrale Ineffizienz in gängigen RL-Algorithmen wie GRPO, die den Optimierungsdruck undifferenziert anwenden und das Lernsignal über alle Tokens verdünnen. Um dies zu beheben, schlagen wir HIerarchy-Aware Credit Assignment (HICRA) vor, einen Algorithmus, der die Optimierungsbemühungen auf hochwirksame Planungstokens konzentriert. HICRA übertrifft starke Baselines deutlich und zeigt, dass die Fokussierung auf diesen strategischen Engpass der Schlüssel zur Entfaltung fortgeschrittener Denkfähigkeiten ist. Darüber hinaus validieren wir semantische Entropie als überlegenen Kompass zur Messung strategischer Erkundung gegenüber irreführenden Metriken wie Token-Level-Entropie.

English

Reinforcement Learning (RL) has proven highly effective at enhancing the complex reasoning abilities of Large Language Models (LLMs), yet underlying mechanisms driving this success remain largely opaque. Our analysis reveals that puzzling phenomena like ``aha moments", ``length-scaling'' and entropy dynamics are not disparate occurrences but hallmarks of an emergent reasoning hierarchy, akin to the separation of high-level strategic planning from low-level procedural execution in human cognition. We uncover a compelling two-phase dynamic: initially, a model is constrained by procedural correctness and must improve its low-level skills. The learning bottleneck then decisively shifts, with performance gains being driven by the exploration and mastery of high-level strategic planning. This insight exposes a core inefficiency in prevailing RL algorithms like GRPO, which apply optimization pressure agnostically and dilute the learning signal across all tokens. To address this, we propose HIerarchy-Aware Credit Assignment (HICRA), an algorithm that concentrates optimization efforts on high-impact planning tokens. HICRA significantly outperforms strong baselines, demonstrating that focusing on this strategic bottleneck is key to unlocking advanced reasoning. Furthermore, we validate semantic entropy as a superior compass for measuring strategic exploration over misleading metrics such as token-level entropy.

Entstehende hierarchische Argumentation in LLMs durch Reinforcement Learning

Emergent Hierarchical Reasoning in LLMs through Reinforcement Learning

papers.abstract

Support