Apprentissage par Renforcement On-Policy avec Base de Récompense Optimale
On-Policy RL with Optimal Reward Baseline
May 29, 2025
Auteurs: Yaru Hao, Li Dong, Xun Wu, Shaohan Huang, Zewen Chi, Furu Wei
cs.AI
Résumé
Les algorithmes d'apprentissage par renforcement sont fondamentaux pour aligner les grands modèles de langage avec les préférences humaines et pour améliorer leurs capacités de raisonnement. Cependant, les algorithmes d'apprentissage par renforcement actuels souffrent souvent d'une instabilité lors de l'entraînement due à des contraintes de politique en ligne (on-policy) trop lâches, ainsi que d'une inefficacité computationnelle causée par des modèles auxiliaires. Dans ce travail, nous proposons l'apprentissage par renforcement en ligne avec une base de récompense optimale (On-Policy RL with Optimal reward baseline, OPO), un nouvel algorithme d'apprentissage par renforcement simplifié conçu pour relever ces défis. OPO met l'accent sur l'importance d'un entraînement en ligne exact, ce qui stabilise empiriquement le processus d'entraînement et améliore l'exploration. De plus, OPO introduit la base de récompense optimale qui, théoriquement, minimise la variance du gradient. Nous évaluons OPO sur des benchmarks de raisonnement mathématique. Les résultats démontrent sa performance supérieure et sa stabilité d'entraînement sans nécessiter de modèles supplémentaires ou de termes de régularisation. Par ailleurs, OPO atteint des décalages de politique plus faibles et une entropie de sortie plus élevée, encourageant des réponses plus diversifiées et moins répétitives. Ces résultats soulignent OPO comme une direction prometteuse pour un apprentissage par renforcement stable et efficace dans l'alignement des grands modèles de langage et les tâches de raisonnement. L'implémentation est disponible à l'adresse suivante : https://github.com/microsoft/LMOps/tree/main/opo.
English
Reinforcement learning algorithms are fundamental to align large language
models with human preferences and to enhance their reasoning capabilities.
However, current reinforcement learning algorithms often suffer from training
instability due to loose on-policy constraints and computational inefficiency
due to auxiliary models. In this work, we propose On-Policy RL with Optimal
reward baseline (OPO), a novel and simplified reinforcement learning algorithm
designed to address these challenges. OPO emphasizes the importance of exact
on-policy training, which empirically stabilizes the training process and
enhances exploration. Moreover, OPO introduces the optimal reward baseline that
theoretically minimizes gradient variance. We evaluate OPO on mathematical
reasoning benchmarks. The results demonstrate its superior performance and
training stability without additional models or regularization terms.
Furthermore, OPO achieves lower policy shifts and higher output entropy,
encouraging more diverse and less repetitive responses. These results highlight
OPO as a promising direction for stable and effective reinforcement learning in
large language model alignment and reasoning tasks. The implementation is
provided at https://github.com/microsoft/LMOps/tree/main/opo.Summary
AI-Generated Summary