ChatPaper.aiChatPaper

Optimización de Políticas de Abajo hacia Arriba: Tu Modelo de Lenguaje como Política Contiene Secretamente Políticas Internas

Bottom-up Policy Optimization: Your Language Model Policy Secretly Contains Internal Policies

December 22, 2025
Autores: Yuqiao Tan, Minzheng Wang, Shizhu He, Huanxuan Liao, Chengfeng Zhao, Qiunan Lu, Tian Liang, Jun Zhao, Kang Liu
cs.AI

Resumen

Los enfoques existentes de aprendizaje por refuerzo (RL) tratan a los grandes modelos de lenguaje (LLMs) como una única política unificada, pasando por alto sus mecanismos internos. Por lo tanto, comprender cómo evoluciona la política a través de las capas y módulos es crucial para permitir una optimización más dirigida y desentrañar los mecanismos de razonamiento complejo. En este artículo, descomponemos la política del modelo de lenguaje aprovechando la división intrínseca del flujo residual del Transformer y la equivalencia entre la composición de los estados ocultos con la matriz de desincrustación y la política muestreable resultante. Esta descomposición revela Políticas Internas de Capa, que corresponden a las contribuciones de capas individuales, y Políticas Internas Modulares, que se alinean con los componentes de autoatención y la red feed-forward (FFN) dentro de cada capa. Al analizar la entropía de la política interna, encontramos que: (a) Las primeras capas mantienen una alta entropía para la exploración, mientras que las capas superiores convergen a una entropía cercana a cero para el refinamiento, con patrones de convergencia que varían entre series de modelos. (b) El espacio de predicción de LLama converge rápidamente en la capa final, mientras que los modelos de la serie Qwen, especialmente Qwen3, exhiben un patrón de razonamiento progresivamente estructurado, más similar al humano. Motivados por estos hallazgos, proponemos la Optimización de Políticas de Abajo hacia Arriba (BuPO), un nuevo paradigma de RL que optimiza directamente la política interna de capa durante las primeras etapas del entrenamiento. Al alinear el objetivo de entrenamiento en las capas inferiores, BuPO reconstruye capacidades de razonamiento fundamentales y logra un rendimiento superior. Experimentos exhaustivos en benchmarks de razonamiento complejo demuestran la efectividad de nuestro método. Nuestro código está disponible en https://github.com/Trae1ounG/BuPO.
English
Existing reinforcement learning (RL) approaches treat large language models (LLMs) as a single unified policy, overlooking their internal mechanisms. Understanding how policy evolves across layers and modules is therefore crucial for enabling more targeted optimization and raveling out complex reasoning mechanisms. In this paper, we decompose the language model policy by leveraging the intrinsic split of the Transformer residual stream and the equivalence between the composition of hidden states with the unembedding matrix and the resulting samplable policy. This decomposition reveals Internal Layer Policies, corresponding to contributions from individual layers, and Internal Modular Policies, which align with the self-attention and feed-forward network (FFN) components within each layer. By analyzing the entropy of internal policy, we find that: (a) Early layers keep high entropy for exploration, top layers converge to near-zero entropy for refinement, with convergence patterns varying across model series. (b) LLama's prediction space rapidly converges in the final layer, whereas Qwen-series models, especially Qwen3, exhibit a more human-like, progressively structured reasoning pattern. Motivated by these findings, we propose Bottom-up Policy Optimization (BuPO), a novel RL paradigm that directly optimizes the internal layer policy during early training. By aligning training objective at lower layer, BuPO reconstructs foundational reasoning capabilities and achieves superior performance. Extensive experiments on complex reasoning benchmarks demonstrates the effectiveness of our method. Our code is available at https://github.com/Trae1ounG/BuPO.
PDF494December 25, 2025