BAPO: Stabilizzazione dell'Apprendimento per Rinforzo Off-Policy per LLM tramite Ottimizzazione Bilanciata delle Politiche con Clipping Adattivo

Abstract

L'apprendimento per rinforzo (RL) è recentemente diventato il paradigma centrale per allineare e potenziare i grandi modelli linguistici (LLM). Tuttavia, applicare il RL in contesti off-policy—dove vengono utilizzati dati obsoleti provenienti da politiche passate per l'addestramento—migliora l'efficienza del campionamento, ma rimane impegnativo: l'entropia della politica diminuisce drasticamente, l'ottimizzazione spesso diventa instabile e può persino collassare. Attraverso analisi teoriche ed empiriche, identifichiamo due intuizioni chiave: (i) uno squilibrio nell'ottimizzazione, in cui i campioni con vantaggio negativo dominano il gradiente della politica, sopprimendo comportamenti utili e rischiando esplosioni del gradiente; e (ii) la regola derivata dell'Entropia-Clip, che rivela come il meccanismo di clipping fisso negli obiettivi simili al PPO blocchi sistematicamente gli aggiornamenti che aumentano l'entropia, spingendo così la politica verso un eccessivo sfruttamento a scapito dell'esplorazione. Basandoci su queste intuizioni, proponiamo l'Ottimizzazione Bilanciata della Politica con Clipping Adattivo (BAPO), un metodo semplice ma efficace che regola dinamicamente i limiti di clipping per riequilibrare in modo adattivo i contributi positivi e negativi, preservare l'entropia e stabilizzare l'ottimizzazione del RL. In diversi scenari off-policy—inclusi il replay dei campioni e il rollout parziale—BAPO raggiunge un addestramento rapido, stabile ed efficiente in termini di dati. Sui benchmark AIME 2024 e AIME 2025, il nostro modello BAPO da 7B supera le controparti open-source come SkyWork-OR1-7B, mentre il nostro modello BAPO da 32B non solo ottiene risultati all'avanguardia tra i modelli della stessa scala, ma supera anche sistemi proprietari leader come o3-mini e Gemini-2.5-Flash-Thinking.

English

Reinforcement learning (RL) has recently become the core paradigm for aligning and strengthening large language models (LLMs). Yet, applying RL in off-policy settings--where stale data from past policies are used for training--improves sample efficiency, but remains challenging: policy entropy declines sharply, optimization often becomes unstable and may even collapse. Through theoretical and empirical analysis, we identify two key insights: (i) an imbalance in optimization, where negative-advantage samples dominate the policy gradient, suppressing useful behaviors and risking gradient explosions; and (ii) the derived Entropy-Clip Rule, which reveals that the fixed clipping mechanism in PPO-like objectives systematically blocks entropy-increasing updates, thereby driving the policy toward over-exploitation at the expense of exploration. Building on these insights, we propose BAlanced Policy Optimization with Adaptive Clipping (BAPO), a simple yet effective method that dynamically adjusts clipping bounds to adaptively re-balance positive and negative contributions, preserve entropy, and stabilize RL optimization. Across diverse off-policy scenarios--including sample replay and partial rollout--BAPO achieves fast, stable, and data-efficient training. On AIME 2024 and AIME 2025 benchmarks, our 7B BAPO model surpasses open-source counterparts such as SkyWork-OR1-7B, while our 32B BAPO model not only achieves state-of-the-art results among models of the same scale but also outperforms leading proprietary systems like o3-mini and Gemini-2.5-Flash-Thinking.

BAPO: Stabilizzazione dell'Apprendimento per Rinforzo Off-Policy per LLM tramite Ottimizzazione Bilanciata delle Politiche con Clipping Adattivo

BAPO: Stabilizing Off-Policy Reinforcement Learning for LLMs via Balanced Policy Optimization with Adaptive Clipping

Abstract

Support