RL On-Policy com Linha de Base de Recompensa Ótima
On-Policy RL with Optimal Reward Baseline
May 29, 2025
Autores: Yaru Hao, Li Dong, Xun Wu, Shaohan Huang, Zewen Chi, Furu Wei
cs.AI
Resumo
Os algoritmos de aprendizado por reforço são fundamentais para alinhar grandes modelos de linguagem com as preferências humanas e aprimorar suas capacidades de raciocínio. No entanto, os algoritmos atuais de aprendizado por reforço frequentemente sofrem com instabilidade no treinamento devido a restrições de política (on-policy) pouco rigorosas e ineficiência computacional causada por modelos auxiliares. Neste trabalho, propomos o On-Policy RL com Linha de Base de Recompensa Ótima (OPO), um algoritmo de aprendizado por reforço novo e simplificado, projetado para abordar esses desafios. O OPO enfatiza a importância do treinamento exato de política, o que empiricamente estabiliza o processo de treinamento e melhora a exploração. Além disso, o OPO introduz a linha de base de recompensa ótima, que teoricamente minimiza a variância do gradiente. Avaliamos o OPO em benchmarks de raciocínio matemático. Os resultados demonstram seu desempenho superior e estabilidade no treinamento sem a necessidade de modelos adicionais ou termos de regularização. Além disso, o OPO alcança menores mudanças de política e maior entropia de saída, incentivando respostas mais diversas e menos repetitivas. Esses resultados destacam o OPO como uma direção promissora para o aprendizado por reforço estável e eficaz no alinhamento de grandes modelos de linguagem e tarefas de raciocínio. A implementação está disponível em https://github.com/microsoft/LMOps/tree/main/opo.
English
Reinforcement learning algorithms are fundamental to align large language
models with human preferences and to enhance their reasoning capabilities.
However, current reinforcement learning algorithms often suffer from training
instability due to loose on-policy constraints and computational inefficiency
due to auxiliary models. In this work, we propose On-Policy RL with Optimal
reward baseline (OPO), a novel and simplified reinforcement learning algorithm
designed to address these challenges. OPO emphasizes the importance of exact
on-policy training, which empirically stabilizes the training process and
enhances exploration. Moreover, OPO introduces the optimal reward baseline that
theoretically minimizes gradient variance. We evaluate OPO on mathematical
reasoning benchmarks. The results demonstrate its superior performance and
training stability without additional models or regularization terms.
Furthermore, OPO achieves lower policy shifts and higher output entropy,
encouraging more diverse and less repetitive responses. These results highlight
OPO as a promising direction for stable and effective reinforcement learning in
large language model alignment and reasoning tasks. The implementation is
provided at https://github.com/microsoft/LMOps/tree/main/opo.