ChatPaper.aiChatPaper

On-Policy RL mit optimaler Belohnungsbaseline

On-Policy RL with Optimal Reward Baseline

May 29, 2025
Autoren: Yaru Hao, Li Dong, Xun Wu, Shaohan Huang, Zewen Chi, Furu Wei
cs.AI

Zusammenfassung

Reinforcement-Learning-Algorithmen sind grundlegend, um große Sprachmodelle an menschliche Präferenzen anzupassen und ihre Fähigkeiten zur logischen Schlussfolgerung zu verbessern. Allerdings leiden aktuelle Reinforcement-Learning-Algorithmen häufig unter Trainingsinstabilität aufgrund lockerer On-Policy-Einschränkungen und rechnerischer Ineffizienz durch zusätzliche Modelle. In dieser Arbeit schlagen wir On-Policy RL mit optimaler Belohnungsbasis (OPO) vor, einen neuartigen und vereinfachten Reinforcement-Learning-Algorithmus, der entwickelt wurde, um diese Herausforderungen zu bewältigen. OPO betont die Bedeutung eines exakten On-Policy-Trainings, das empirisch den Trainingsprozess stabilisiert und die Exploration verbessert. Darüber hinaus führt OPO die optimale Belohnungsbasis ein, die theoretisch die Gradientenvarianz minimiert. Wir evaluieren OPO anhand von Benchmarks für mathematisches Schlussfolgern. Die Ergebnisse zeigen seine überlegene Leistung und Trainingsstabilität ohne zusätzliche Modelle oder Regularisierungsterme. Darüber hinaus erreicht OPO geringere Policy-Verschiebungen und eine höhere Ausgabeentropie, was vielfältigere und weniger repetitive Antworten fördert. Diese Ergebnisse unterstreichen OPO als vielversprechende Richtung für stabiles und effektives Reinforcement Learning bei der Ausrichtung und logischen Schlussfolgerung großer Sprachmodelle. Die Implementierung ist unter https://github.com/microsoft/LMOps/tree/main/opo verfügbar.
English
Reinforcement learning algorithms are fundamental to align large language models with human preferences and to enhance their reasoning capabilities. However, current reinforcement learning algorithms often suffer from training instability due to loose on-policy constraints and computational inefficiency due to auxiliary models. In this work, we propose On-Policy RL with Optimal reward baseline (OPO), a novel and simplified reinforcement learning algorithm designed to address these challenges. OPO emphasizes the importance of exact on-policy training, which empirically stabilizes the training process and enhances exploration. Moreover, OPO introduces the optimal reward baseline that theoretically minimizes gradient variance. We evaluate OPO on mathematical reasoning benchmarks. The results demonstrate its superior performance and training stability without additional models or regularization terms. Furthermore, OPO achieves lower policy shifts and higher output entropy, encouraging more diverse and less repetitive responses. These results highlight OPO as a promising direction for stable and effective reinforcement learning in large language model alignment and reasoning tasks. The implementation is provided at https://github.com/microsoft/LMOps/tree/main/opo.

Summary

AI-Generated Summary

PDF142May 30, 2025