Bottom-up Policy Optimization: Ihr Sprachmodell enthält heimlich interne Policies

papers.abstract

Bestehende Reinforcement-Learning(RL)-Ansätze behandeln große Sprachmodelle (LLMs) als eine einzige vereinheitlichte Policy und übersehen dabei ihre internen Mechanismen. Das Verständnis dafür, wie sich die Policy über Schichten und Module hinweg entwickelt, ist daher entscheidend, um eine zielgerichtetere Optimierung zu ermöglichen und komplexe Reasoning-Mechanismen zu entschlüsseln. In diesem Artikel zerlegen wir die Sprachmodell-Policy, indem wir die intrinsische Aufteilung des Transformer-Residual-Streams sowie die Äquivalenz zwischen der Komposition versteckter Zustände mit der Unembedding-Matrix und der daraus resultierenden abtastbaren Policy nutzen. Diese Zerlegung offenbart interne Schicht-Policies, die den Beiträgen einzelner Schichten entsprechen, sowie interne modulare Policies, die mit den Self-Attention- und Feed-Forward-Network(FFN)-Komponenten innerhalb jeder Schicht übereinstimmen. Durch die Analyse der Entropie der internen Policy stellen wir fest: (a) Frühe Schichten halten eine hohe Entropie für Exploration aufrecht, während obere Schichten zu einer nahezu null Entropie für die Verfeinerung konvergieren, wobei die Konvergenzmuster je nach Modellreihe variieren. (b) Der Prädiktionsraum von LLama konvergiert rapide in der letzten Schicht, während Qwen-Modelle, insbesondere Qwen3, ein menschenähnlicheres, progressiv strukturiertes Reasoning-Muster aufweisen. Angeregt durch diese Erkenntnisse schlagen wir Bottom-up Policy Optimization (BuPO) vor, ein neuartiges RL-Paradigma, das direkt die interne Schicht-Policy während des frühen Trainings optimiert. Durch die Ausrichtung des Trainingsziels auf untere Schichten rekonstruiert BuPO grundlegende Reasoning-Fähigkeiten und erzielt eine überlegene Leistung. Umfangreiche Experimente auf komplexen Reasoning-Benchmarks demonstrieren die Wirksamkeit unserer Methode. Unser Code ist verfügbar unter https://github.com/Trae1ounG/BuPO.

English

Existing reinforcement learning (RL) approaches treat large language models (LLMs) as a single unified policy, overlooking their internal mechanisms. Understanding how policy evolves across layers and modules is therefore crucial for enabling more targeted optimization and raveling out complex reasoning mechanisms. In this paper, we decompose the language model policy by leveraging the intrinsic split of the Transformer residual stream and the equivalence between the composition of hidden states with the unembedding matrix and the resulting samplable policy. This decomposition reveals Internal Layer Policies, corresponding to contributions from individual layers, and Internal Modular Policies, which align with the self-attention and feed-forward network (FFN) components within each layer. By analyzing the entropy of internal policy, we find that: (a) Early layers keep high entropy for exploration, top layers converge to near-zero entropy for refinement, with convergence patterns varying across model series. (b) LLama's prediction space rapidly converges in the final layer, whereas Qwen-series models, especially Qwen3, exhibit a more human-like, progressively structured reasoning pattern. Motivated by these findings, we propose Bottom-up Policy Optimization (BuPO), a novel RL paradigm that directly optimizes the internal layer policy during early training. By aligning training objective at lower layer, BuPO reconstructs foundational reasoning capabilities and achieves superior performance. Extensive experiments on complex reasoning benchmarks demonstrates the effectiveness of our method. Our code is available at https://github.com/Trae1ounG/BuPO.

Bottom-up Policy Optimization: Ihr Sprachmodell enthält heimlich interne Policies

Bottom-up Policy Optimization: Your Language Model Policy Secretly Contains Internal Policies

papers.abstract

Support