Обучение с подкреплением на основе текущей политики с оптимальным базовым вознаграждением
On-Policy RL with Optimal Reward Baseline
May 29, 2025
Авторы: Yaru Hao, Li Dong, Xun Wu, Shaohan Huang, Zewen Chi, Furu Wei
cs.AI
Аннотация
Алгоритмы обучения с подкреплением играют ключевую роль в согласовании крупных языковых моделей с человеческими предпочтениями и в улучшении их способностей к рассуждению. Однако современные алгоритмы обучения с подкреплением часто страдают от нестабильности обучения из-за слабых ограничений на политику и низкой вычислительной эффективности, вызванной использованием вспомогательных моделей. В данной работе мы предлагаем On-Policy RL with Optimal reward baseline (OPO) — новый и упрощённый алгоритм обучения с подкреплением, разработанный для решения этих проблем. OPO подчеркивает важность точного обучения на основе текущей политики, что эмпирически стабилизирует процесс обучения и улучшает исследование. Кроме того, OPO вводит оптимальный базовый уровень вознаграждения, который теоретически минимизирует дисперсию градиента. Мы оцениваем OPO на задачах математического рассуждения. Результаты демонстрируют его превосходную производительность и стабильность обучения без использования дополнительных моделей или регуляризационных членов. Более того, OPO достигает меньших сдвигов политики и более высокой энтропии выходных данных, способствуя более разнообразным и менее повторяющимся ответам. Эти результаты подчеркивают OPO как перспективное направление для стабильного и эффективного обучения с подкреплением в задачах согласования и рассуждения крупных языковых моделей. Реализация доступна по адресу https://github.com/microsoft/LMOps/tree/main/opo.
English
Reinforcement learning algorithms are fundamental to align large language
models with human preferences and to enhance their reasoning capabilities.
However, current reinforcement learning algorithms often suffer from training
instability due to loose on-policy constraints and computational inefficiency
due to auxiliary models. In this work, we propose On-Policy RL with Optimal
reward baseline (OPO), a novel and simplified reinforcement learning algorithm
designed to address these challenges. OPO emphasizes the importance of exact
on-policy training, which empirically stabilizes the training process and
enhances exploration. Moreover, OPO introduces the optimal reward baseline that
theoretically minimizes gradient variance. We evaluate OPO on mathematical
reasoning benchmarks. The results demonstrate its superior performance and
training stability without additional models or regularization terms.
Furthermore, OPO achieves lower policy shifts and higher output entropy,
encouraging more diverse and less repetitive responses. These results highlight
OPO as a promising direction for stable and effective reinforcement learning in
large language model alignment and reasoning tasks. The implementation is
provided at https://github.com/microsoft/LMOps/tree/main/opo.Summary
AI-Generated Summary