ChatPaper.aiChatPaper

RL en la Política Actual con Línea Base de Recompensa Óptima

On-Policy RL with Optimal Reward Baseline

May 29, 2025
Autores: Yaru Hao, Li Dong, Xun Wu, Shaohan Huang, Zewen Chi, Furu Wei
cs.AI

Resumen

Los algoritmos de aprendizaje por refuerzo son fundamentales para alinear los modelos de lenguaje de gran escala con las preferencias humanas y mejorar sus capacidades de razonamiento. Sin embargo, los algoritmos actuales de aprendizaje por refuerzo suelen presentar inestabilidad en el entrenamiento debido a restricciones laxas en la política actual y a ineficiencias computacionales causadas por modelos auxiliares. En este trabajo, proponemos "On-Policy RL with Optimal reward baseline" (OPO), un algoritmo novedoso y simplificado de aprendizaje por refuerzo diseñado para abordar estos desafíos. OPO enfatiza la importancia del entrenamiento exacto en la política actual, lo cual empíricamente estabiliza el proceso de entrenamiento y mejora la exploración. Además, OPO introduce la línea base de recompensa óptima que teóricamente minimiza la varianza del gradiente. Evaluamos OPO en benchmarks de razonamiento matemático. Los resultados demuestran su rendimiento superior y estabilidad en el entrenamiento sin necesidad de modelos adicionales o términos de regularización. Además, OPO logra menores cambios en la política y una mayor entropía en las salidas, fomentando respuestas más diversas y menos repetitivas. Estos resultados destacan a OPO como una dirección prometedora para un aprendizaje por refuerzo estable y efectivo en tareas de alineación y razonamiento de modelos de lenguaje de gran escala. La implementación está disponible en https://github.com/microsoft/LMOps/tree/main/opo.
English
Reinforcement learning algorithms are fundamental to align large language models with human preferences and to enhance their reasoning capabilities. However, current reinforcement learning algorithms often suffer from training instability due to loose on-policy constraints and computational inefficiency due to auxiliary models. In this work, we propose On-Policy RL with Optimal reward baseline (OPO), a novel and simplified reinforcement learning algorithm designed to address these challenges. OPO emphasizes the importance of exact on-policy training, which empirically stabilizes the training process and enhances exploration. Moreover, OPO introduces the optimal reward baseline that theoretically minimizes gradient variance. We evaluate OPO on mathematical reasoning benchmarks. The results demonstrate its superior performance and training stability without additional models or regularization terms. Furthermore, OPO achieves lower policy shifts and higher output entropy, encouraging more diverse and less repetitive responses. These results highlight OPO as a promising direction for stable and effective reinforcement learning in large language model alignment and reasoning tasks. The implementation is provided at https://github.com/microsoft/LMOps/tree/main/opo.

Summary

AI-Generated Summary

PDF142May 30, 2025