하향식 정책 최적화: 언어 모델 정책이 내부적으로 은닉한 다중 정책
Bottom-up Policy Optimization: Your Language Model Policy Secretly Contains Internal Policies
December 22, 2025
저자: Yuqiao Tan, Minzheng Wang, Shizhu He, Huanxuan Liao, Chengfeng Zhao, Qiunan Lu, Tian Liang, Jun Zhao, Kang Liu
cs.AI
초록
기존 강화학습(RL) 접근법은 대규모 언어 모델(LLM)을 단일 통합 정책으로 취급하여 내부 메커니즘을 간과해왔습니다. 따라서 계층과 모듈 간 정책이 어떻게 진화하는지 이해하는 것은 보다 표적화된 최적화를 가능하게 하고 복잡한 추론 메커니즘을 해명하는 데 중요합니다. 본 논문에서는 Transformer 잔차 스트림의 내재적 분할과 은닉 상태와 언임베딩 행렬의 구성이 결과적으로 샘플링 가능한 정책과 동등하다는 점을 활용하여 언어 모델 정책을 분해합니다. 이 분해를 통해 개별 계층의 기여에 해당하는 내부 계층 정책과 각 계층 내 자기 주의력 및 피드포워드 네트워크(FFN) 구성 요소와 일치하는 내부 모듈러 정책을 발견합니다. 내부 정책의 엔트로피를 분석한 결과 다음과 같은 사실을 확인했습니다: (a) 초기 계층은 탐색을 위해 높은 엔트로피를 유지하고, 상위 계층은 정교화를 위해 거의 제로에 가까운 엔트로피로 수렴하며, 수렴 패턴은 모델 시리즈에 따라 다양합니다. (b) LLama의 예측 공간은 최종 계층에서 급격히 수렴하는 반면, Qwen 시리즈 모델, 특히 Qwen3는 보다 인간과 유사한 점진적 구조의 추론 패턴을 보입니다. 이러한 발견에 기반하여, 우리는 조기 훈련期間 동안 내부 계층 정책을 직접 최적화하는 새로운 RL 패러다임인 Bottom-up Policy Optimization(BuPO)을 제안합니다. 하위 계층의 훈련 목표를 정렬함으로써, BuPO는 기초 추론 능력을 재구성하고 우수한 성능을 달성합니다. 복잡한 추론 벤치마크에 대한 광범위한 실험을 통해 우리 방법의 효과성을 입증합니다. 우리의 코드는 https://github.com/Trae1ounG/BuPO에서 확인할 수 있습니다.
English
Existing reinforcement learning (RL) approaches treat large language models (LLMs) as a single unified policy, overlooking their internal mechanisms. Understanding how policy evolves across layers and modules is therefore crucial for enabling more targeted optimization and raveling out complex reasoning mechanisms. In this paper, we decompose the language model policy by leveraging the intrinsic split of the Transformer residual stream and the equivalence between the composition of hidden states with the unembedding matrix and the resulting samplable policy. This decomposition reveals Internal Layer Policies, corresponding to contributions from individual layers, and Internal Modular Policies, which align with the self-attention and feed-forward network (FFN) components within each layer. By analyzing the entropy of internal policy, we find that: (a) Early layers keep high entropy for exploration, top layers converge to near-zero entropy for refinement, with convergence patterns varying across model series. (b) LLama's prediction space rapidly converges in the final layer, whereas Qwen-series models, especially Qwen3, exhibit a more human-like, progressively structured reasoning pattern. Motivated by these findings, we propose Bottom-up Policy Optimization (BuPO), a novel RL paradigm that directly optimizes the internal layer policy during early training. By aligning training objective at lower layer, BuPO reconstructs foundational reasoning capabilities and achieves superior performance. Extensive experiments on complex reasoning benchmarks demonstrates the effectiveness of our method. Our code is available at https://github.com/Trae1ounG/BuPO.