BAPO: Estabilizando o Aprendizado por Reforço Off-Policy para LLMs por meio de Otimização de Política Balanceada com Recorte Adaptativo

Resumo

O aprendizado por reforço (RL, do inglês Reinforcement Learning) tornou-se recentemente o paradigma central para alinhar e fortalecer grandes modelos de linguagem (LLMs, do inglês Large Language Models). No entanto, aplicar RL em configurações off-policy—onde dados desatualizados de políticas anteriores são usados para treinamento—melhora a eficiência amostral, mas continua desafiador: a entropia da política diminui drasticamente, a otimização frequentemente se torna instável e pode até colapsar. Por meio de análises teóricas e empíricas, identificamos dois insights principais: (i) um desequilíbrio na otimização, onde amostras de vantagem negativa dominam o gradiente da política, suprimindo comportamentos úteis e arriscando explosões de gradiente; e (ii) a Regra de Clipping de Entropia derivada, que revela que o mecanismo de clipping fixo em objetivos semelhantes ao PPO bloqueia sistematicamente atualizações que aumentam a entropia, levando a política à superexploração em detrimento da exploração. Com base nesses insights, propomos o BAlanced Policy Optimization with Adaptive Clipping (BAPO), um método simples, porém eficaz, que ajusta dinamicamente os limites de clipping para reequilibrar de forma adaptativa as contribuições positivas e negativas, preservar a entropia e estabilizar a otimização de RL. Em diversos cenários off-policy—incluindo replay de amostras e rollout parcial—o BAPO alcança treinamento rápido, estável e eficiente em termos de dados. Nos benchmarks AIME 2024 e AIME 2025, nosso modelo BAPO de 7B supera contrapartes de código aberto, como o SkyWork-OR1-7B, enquanto nosso modelo BAPO de 32B não apenas alcança resultados de ponta entre modelos da mesma escala, mas também supera sistemas proprietários líderes, como o o3-mini e o Gemini-2.5-Flash-Thinking.

English

Reinforcement learning (RL) has recently become the core paradigm for aligning and strengthening large language models (LLMs). Yet, applying RL in off-policy settings--where stale data from past policies are used for training--improves sample efficiency, but remains challenging: policy entropy declines sharply, optimization often becomes unstable and may even collapse. Through theoretical and empirical analysis, we identify two key insights: (i) an imbalance in optimization, where negative-advantage samples dominate the policy gradient, suppressing useful behaviors and risking gradient explosions; and (ii) the derived Entropy-Clip Rule, which reveals that the fixed clipping mechanism in PPO-like objectives systematically blocks entropy-increasing updates, thereby driving the policy toward over-exploitation at the expense of exploration. Building on these insights, we propose BAlanced Policy Optimization with Adaptive Clipping (BAPO), a simple yet effective method that dynamically adjusts clipping bounds to adaptively re-balance positive and negative contributions, preserve entropy, and stabilize RL optimization. Across diverse off-policy scenarios--including sample replay and partial rollout--BAPO achieves fast, stable, and data-efficient training. On AIME 2024 and AIME 2025 benchmarks, our 7B BAPO model surpasses open-source counterparts such as SkyWork-OR1-7B, while our 32B BAPO model not only achieves state-of-the-art results among models of the same scale but also outperforms leading proprietary systems like o3-mini and Gemini-2.5-Flash-Thinking.