ChatPaper.aiChatPaper

Apprentissage par Renforcement On-Policy avec Base de Récompense Optimale

On-Policy RL with Optimal Reward Baseline

May 29, 2025
Auteurs: Yaru Hao, Li Dong, Xun Wu, Shaohan Huang, Zewen Chi, Furu Wei
cs.AI

Résumé

Les algorithmes d'apprentissage par renforcement sont fondamentaux pour aligner les grands modèles de langage avec les préférences humaines et pour améliorer leurs capacités de raisonnement. Cependant, les algorithmes d'apprentissage par renforcement actuels souffrent souvent d'une instabilité lors de l'entraînement due à des contraintes de politique en ligne (on-policy) trop lâches, ainsi que d'une inefficacité computationnelle causée par des modèles auxiliaires. Dans ce travail, nous proposons l'apprentissage par renforcement en ligne avec une base de récompense optimale (On-Policy RL with Optimal reward baseline, OPO), un nouvel algorithme d'apprentissage par renforcement simplifié conçu pour relever ces défis. OPO met l'accent sur l'importance d'un entraînement en ligne exact, ce qui stabilise empiriquement le processus d'entraînement et améliore l'exploration. De plus, OPO introduit la base de récompense optimale qui, théoriquement, minimise la variance du gradient. Nous évaluons OPO sur des benchmarks de raisonnement mathématique. Les résultats démontrent sa performance supérieure et sa stabilité d'entraînement sans nécessiter de modèles supplémentaires ou de termes de régularisation. Par ailleurs, OPO atteint des décalages de politique plus faibles et une entropie de sortie plus élevée, encourageant des réponses plus diversifiées et moins répétitives. Ces résultats soulignent OPO comme une direction prometteuse pour un apprentissage par renforcement stable et efficace dans l'alignement des grands modèles de langage et les tâches de raisonnement. L'implémentation est disponible à l'adresse suivante : https://github.com/microsoft/LMOps/tree/main/opo.
English
Reinforcement learning algorithms are fundamental to align large language models with human preferences and to enhance their reasoning capabilities. However, current reinforcement learning algorithms often suffer from training instability due to loose on-policy constraints and computational inefficiency due to auxiliary models. In this work, we propose On-Policy RL with Optimal reward baseline (OPO), a novel and simplified reinforcement learning algorithm designed to address these challenges. OPO emphasizes the importance of exact on-policy training, which empirically stabilizes the training process and enhances exploration. Moreover, OPO introduces the optimal reward baseline that theoretically minimizes gradient variance. We evaluate OPO on mathematical reasoning benchmarks. The results demonstrate its superior performance and training stability without additional models or regularization terms. Furthermore, OPO achieves lower policy shifts and higher output entropy, encouraging more diverse and less repetitive responses. These results highlight OPO as a promising direction for stable and effective reinforcement learning in large language model alignment and reasoning tasks. The implementation is provided at https://github.com/microsoft/LMOps/tree/main/opo.

Summary

AI-Generated Summary

PDF142May 30, 2025