Ottimizzazione delle Politiche dal Basso: Il Tuo Modello Linguistico Contiene Segretamente Politiche Interne

Abstract

Gli approcci esistenti di apprendimento per rinforzo (RL) trattano i grandi modelli linguistici (LLM) come un'unica politica unificata, trascurando i loro meccanismi interni. Comprendere come la politica si evolve attraverso i layer e i moduli è quindi cruciale per abilitare un'ottimizzazione più mirata e per svelare i complessi meccanismi di ragionamento. In questo articolo, scomponiamo la politica del modello linguistico sfruttando la suddivisione intrinseca del flusso residuo del Transformer e l'equivalenza tra la composizione degli stati nascosti con la matrice di "unembedding" e la politica campionabile risultante. Questa scomposizione rivela Politiche di Layer Interni, corrispondenti ai contributi dei singoli layer, e Politiche Modulari Interne, che si allineano con i componenti di self-attention e delle reti feed-forward (FFN) all'interno di ogni layer. Analizzando l'entropia della politica interna, scopriamo che: (a) I layer iniziali mantengono un'alta entropia per l'esplorazione, mentre i layer finali convergono verso un'entropia quasi zero per l'affinamento, con pattern di convergenza che variano tra le diverse serie di modelli. (b) Lo spazio di predizione di LLama converge rapidamente nel layer finale, mentre i modelli della serie Qwen, in particolare Qwen3, mostrano un pattern di ragionamento progressivamente strutturato, più simile a quello umano. Stimolati da questi risultati, proponiamo l'Ottimizzazione Bottom-up della Politica (BuPO), un nuovo paradigma di RL che ottimizza direttamente la politica interna dei layer durante le fasi iniziali dell'addestramento. Allineando l'obiettivo di addestramento ai layer inferiori, la BuPO ricostruisce le capacità di ragionamento fondamentali e ottiene prestazioni superiori. Esperimenti estesi su benchmark di ragionamento complesso dimostrano l'efficacia del nostro metodo. Il nostro codice è disponibile all'indirizzo https://github.com/Trae1ounG/BuPO.

English

Existing reinforcement learning (RL) approaches treat large language models (LLMs) as a single unified policy, overlooking their internal mechanisms. Understanding how policy evolves across layers and modules is therefore crucial for enabling more targeted optimization and raveling out complex reasoning mechanisms. In this paper, we decompose the language model policy by leveraging the intrinsic split of the Transformer residual stream and the equivalence between the composition of hidden states with the unembedding matrix and the resulting samplable policy. This decomposition reveals Internal Layer Policies, corresponding to contributions from individual layers, and Internal Modular Policies, which align with the self-attention and feed-forward network (FFN) components within each layer. By analyzing the entropy of internal policy, we find that: (a) Early layers keep high entropy for exploration, top layers converge to near-zero entropy for refinement, with convergence patterns varying across model series. (b) LLama's prediction space rapidly converges in the final layer, whereas Qwen-series models, especially Qwen3, exhibit a more human-like, progressively structured reasoning pattern. Motivated by these findings, we propose Bottom-up Policy Optimization (BuPO), a novel RL paradigm that directly optimizes the internal layer policy during early training. By aligning training objective at lower layer, BuPO reconstructs foundational reasoning capabilities and achieves superior performance. Extensive experiments on complex reasoning benchmarks demonstrates the effectiveness of our method. Our code is available at https://github.com/Trae1ounG/BuPO.

Ottimizzazione delle Politiche dal Basso: Il Tuo Modello Linguistico Contiene Segretamente Politiche Interne

Bottom-up Policy Optimization: Your Language Model Policy Secretly Contains Internal Policies

Abstract

Support