ChatPaper.aiChatPaper

BAPO : Stabilisation de l'apprentissage par renforcement hors politique pour les LLM via une optimisation de politique équilibrée avec un écrêtage adaptatif

BAPO: Stabilizing Off-Policy Reinforcement Learning for LLMs via Balanced Policy Optimization with Adaptive Clipping

October 21, 2025
papers.authors: Zhiheng Xi, Xin Guo, Yang Nan, Enyu Zhou, Junrui Shen, Wenxiang Chen, Jiaqi Liu, Jixuan Huang, Zhihao Zhang, Honglin Guo, Xun Deng, Zhikai Lei, Miao Zheng, Guoteng Wang, Shuo Zhang, Peng Sun, Rui Zheng, Hang Yan, Tao Gui, Qi Zhang, Xuanjing Huang
cs.AI

papers.abstract

L'apprentissage par renforcement (RL) est récemment devenu le paradigme central pour aligner et renforcer les grands modèles de langage (LLMs). Cependant, l'application du RL dans des contextes hors politique (off-policy)—où des données obsolètes provenant de politiques passées sont utilisées pour l'entraînement—améliore l'efficacité des échantillons, mais reste difficile : l'entropie de la politique diminue fortement, l'optimisation devient souvent instable et peut même s'effondrer. À travers une analyse théorique et empirique, nous identifions deux insights clés : (i) un déséquilibre dans l'optimisation, où les échantillons à avantage négatif dominent le gradient de la politique, supprimant les comportements utiles et risquant des explosions de gradient ; et (ii) la règle de coupure d'entropie (Entropy-Clip Rule), qui révèle que le mécanisme de coupure fixe dans les objectifs de type PPO bloque systématiquement les mises à jour augmentant l'entropie, conduisant ainsi la politique vers une surexploitation au détriment de l'exploration. Sur la base de ces insights, nous proposons l'Optimisation de Politique Équilibrée avec Coupure Adaptative (BAPO), une méthode simple mais efficace qui ajuste dynamiquement les bornes de coupure pour rééquilibrer de manière adaptative les contributions positives et négatives, préserver l'entropie et stabiliser l'optimisation du RL. Dans divers scénarios hors politique—y compris la relecture d'échantillons et les déploiements partiels—BAPO permet un entraînement rapide, stable et efficace en termes de données. Sur les benchmarks AIME 2024 et AIME 2025, notre modèle BAPO de 7B surpasse les modèles open-source tels que SkyWork-OR1-7B, tandis que notre modèle BAPO de 32B non seulement atteint des résultats de pointe parmi les modèles de la même échelle, mais surpasse également les systèmes propriétaires leaders comme o3-mini et Gemini-2.5-Flash-Thinking.
English
Reinforcement learning (RL) has recently become the core paradigm for aligning and strengthening large language models (LLMs). Yet, applying RL in off-policy settings--where stale data from past policies are used for training--improves sample efficiency, but remains challenging: policy entropy declines sharply, optimization often becomes unstable and may even collapse. Through theoretical and empirical analysis, we identify two key insights: (i) an imbalance in optimization, where negative-advantage samples dominate the policy gradient, suppressing useful behaviors and risking gradient explosions; and (ii) the derived Entropy-Clip Rule, which reveals that the fixed clipping mechanism in PPO-like objectives systematically blocks entropy-increasing updates, thereby driving the policy toward over-exploitation at the expense of exploration. Building on these insights, we propose BAlanced Policy Optimization with Adaptive Clipping (BAPO), a simple yet effective method that dynamically adjusts clipping bounds to adaptively re-balance positive and negative contributions, preserve entropy, and stabilize RL optimization. Across diverse off-policy scenarios--including sample replay and partial rollout--BAPO achieves fast, stable, and data-efficient training. On AIME 2024 and AIME 2025 benchmarks, our 7B BAPO model surpasses open-source counterparts such as SkyWork-OR1-7B, while our 32B BAPO model not only achieves state-of-the-art results among models of the same scale but also outperforms leading proprietary systems like o3-mini and Gemini-2.5-Flash-Thinking.
PDF561October 23, 2025