ChatPaper.aiChatPaper

RL On-Policy com Linha de Base de Recompensa Ótima

On-Policy RL with Optimal Reward Baseline

May 29, 2025
Autores: Yaru Hao, Li Dong, Xun Wu, Shaohan Huang, Zewen Chi, Furu Wei
cs.AI

Resumo

Os algoritmos de aprendizado por reforço são fundamentais para alinhar grandes modelos de linguagem com as preferências humanas e aprimorar suas capacidades de raciocínio. No entanto, os algoritmos atuais de aprendizado por reforço frequentemente sofrem com instabilidade no treinamento devido a restrições de política (on-policy) pouco rigorosas e ineficiência computacional causada por modelos auxiliares. Neste trabalho, propomos o On-Policy RL com Linha de Base de Recompensa Ótima (OPO), um algoritmo de aprendizado por reforço novo e simplificado, projetado para abordar esses desafios. O OPO enfatiza a importância do treinamento exato de política, o que empiricamente estabiliza o processo de treinamento e melhora a exploração. Além disso, o OPO introduz a linha de base de recompensa ótima, que teoricamente minimiza a variância do gradiente. Avaliamos o OPO em benchmarks de raciocínio matemático. Os resultados demonstram seu desempenho superior e estabilidade no treinamento sem a necessidade de modelos adicionais ou termos de regularização. Além disso, o OPO alcança menores mudanças de política e maior entropia de saída, incentivando respostas mais diversas e menos repetitivas. Esses resultados destacam o OPO como uma direção promissora para o aprendizado por reforço estável e eficaz no alinhamento de grandes modelos de linguagem e tarefas de raciocínio. A implementação está disponível em https://github.com/microsoft/LMOps/tree/main/opo.
English
Reinforcement learning algorithms are fundamental to align large language models with human preferences and to enhance their reasoning capabilities. However, current reinforcement learning algorithms often suffer from training instability due to loose on-policy constraints and computational inefficiency due to auxiliary models. In this work, we propose On-Policy RL with Optimal reward baseline (OPO), a novel and simplified reinforcement learning algorithm designed to address these challenges. OPO emphasizes the importance of exact on-policy training, which empirically stabilizes the training process and enhances exploration. Moreover, OPO introduces the optimal reward baseline that theoretically minimizes gradient variance. We evaluate OPO on mathematical reasoning benchmarks. The results demonstrate its superior performance and training stability without additional models or regularization terms. Furthermore, OPO achieves lower policy shifts and higher output entropy, encouraging more diverse and less repetitive responses. These results highlight OPO as a promising direction for stable and effective reinforcement learning in large language model alignment and reasoning tasks. The implementation is provided at https://github.com/microsoft/LMOps/tree/main/opo.
PDF142December 11, 2025