On-Policy RL met Optimale Beloningsbasis
On-Policy RL with Optimal Reward Baseline
May 29, 2025
Auteurs: Yaru Hao, Li Dong, Xun Wu, Shaohan Huang, Zewen Chi, Furu Wei
cs.AI
Samenvatting
Reinforcement learning-algoritmen zijn essentieel om grote taalmodellen af te stemmen op menselijke voorkeuren en hun redeneervermogen te verbeteren. Huidige reinforcement learning-algoritmen kampen echter vaak met trainingsinstabiliteit door losse on-policy-beperkingen en computationele inefficiëntie door het gebruik van aanvullende modellen. In dit werk introduceren we On-Policy RL met een optimale beloningsbaseline (OPO), een nieuw en vereenvoudigd reinforcement learning-algoritme dat deze uitdagingen aanpakt. OPO benadrukt het belang van exacte on-policy-training, wat empirisch gezien het trainingsproces stabiliseert en de exploratie verbetert. Bovendien introduceert OPO de optimale beloningsbaseline, die theoretisch de variantie van de gradiënt minimaliseert. We evalueren OPO op benchmarks voor wiskundig redeneren. De resultaten tonen de superieure prestaties en trainingsstabiliteit aan, zonder extra modellen of regularisatietermen. Verder bereikt OPO lagere policy-verschuivingen en een hogere output-entropie, wat meer diverse en minder repetitieve reacties stimuleert. Deze resultaten benadrukken OPO als een veelbelovende richting voor stabiele en effectieve reinforcement learning bij het afstemmen van grote taalmodellen en redeneertaken. De implementatie is beschikbaar op https://github.com/microsoft/LMOps/tree/main/opo.
English
Reinforcement learning algorithms are fundamental to align large language
models with human preferences and to enhance their reasoning capabilities.
However, current reinforcement learning algorithms often suffer from training
instability due to loose on-policy constraints and computational inefficiency
due to auxiliary models. In this work, we propose On-Policy RL with Optimal
reward baseline (OPO), a novel and simplified reinforcement learning algorithm
designed to address these challenges. OPO emphasizes the importance of exact
on-policy training, which empirically stabilizes the training process and
enhances exploration. Moreover, OPO introduces the optimal reward baseline that
theoretically minimizes gradient variance. We evaluate OPO on mathematical
reasoning benchmarks. The results demonstrate its superior performance and
training stability without additional models or regularization terms.
Furthermore, OPO achieves lower policy shifts and higher output entropy,
encouraging more diverse and less repetitive responses. These results highlight
OPO as a promising direction for stable and effective reinforcement learning in
large language model alignment and reasoning tasks. The implementation is
provided at https://github.com/microsoft/LMOps/tree/main/opo.