ChatPaper.aiChatPaper

ボトムアップ方策最適化:言語モデル方策は内部に隠れた方策群を含んでいる

Bottom-up Policy Optimization: Your Language Model Policy Secretly Contains Internal Policies

December 22, 2025
著者: Yuqiao Tan, Minzheng Wang, Shizhu He, Huanxuan Liao, Chengfeng Zhao, Qiunan Lu, Tian Liang, Jun Zhao, Kang Liu
cs.AI

要旨

既存の強化学習(RL)手法は、大規模言語モデル(LLM)を単一の統合されたポリシーとして扱い、その内部メカニズムを看過してきた。したがって、ポリシーが層やモジュール間でどのように進化するかを理解することは、より標的化された最適化を可能にし、複雑な推論メカニズムを解明する上で極めて重要である。本論文では、Transformerの残差ストリームの内在的な分割と、隠れ状態とアンエンベディング行列の合成がサンプリング可能なポリシーと等価であることを利用して、言語モデルのポリシーを分解する。この分解により、個々の層からの寄与に対応する内部層ポリシーと、各層内の自己注意機構とフィードフォワードネットワーク(FFN)コンポーネントに沿った内部モジュラーポリシーが明らかになる。内部ポリシーのエントロピーを分析することで、以下のことが明らかになった:(a) 初期層は探索のために高いエントロピーを維持し、上位層は洗練のためにゼロに近いエントロピーに収束するが、その収束パターンはモデル系列によって異なる。(b) LLamaの予測空間は最終層で急速に収束するのに対し、Qwenシリーズのモデル、特にQwen3は、より人間らしい段階的に構造化された推論パターンを示す。これらの知見に基づき、我々は訓練初期段階で内部層ポリシーを直接最適化する新しいRLパラダイムであるBottom-up Policy Optimization(BuPO)を提案する。下位層で訓練目標を整合させることで、BuPOは基礎的な推論能力を再構築し、優れた性能を達成する。複雑な推論ベンチマークにおける大規模な実験により、本手法の有効性が実証された。コードはhttps://github.com/Trae1ounG/BuPO で公開されている。
English
Existing reinforcement learning (RL) approaches treat large language models (LLMs) as a single unified policy, overlooking their internal mechanisms. Understanding how policy evolves across layers and modules is therefore crucial for enabling more targeted optimization and raveling out complex reasoning mechanisms. In this paper, we decompose the language model policy by leveraging the intrinsic split of the Transformer residual stream and the equivalence between the composition of hidden states with the unembedding matrix and the resulting samplable policy. This decomposition reveals Internal Layer Policies, corresponding to contributions from individual layers, and Internal Modular Policies, which align with the self-attention and feed-forward network (FFN) components within each layer. By analyzing the entropy of internal policy, we find that: (a) Early layers keep high entropy for exploration, top layers converge to near-zero entropy for refinement, with convergence patterns varying across model series. (b) LLama's prediction space rapidly converges in the final layer, whereas Qwen-series models, especially Qwen3, exhibit a more human-like, progressively structured reasoning pattern. Motivated by these findings, we propose Bottom-up Policy Optimization (BuPO), a novel RL paradigm that directly optimizes the internal layer policy during early training. By aligning training objective at lower layer, BuPO reconstructs foundational reasoning capabilities and achieves superior performance. Extensive experiments on complex reasoning benchmarks demonstrates the effectiveness of our method. Our code is available at https://github.com/Trae1ounG/BuPO.
PDF494December 25, 2025