ChatPaper.aiChatPaper

CPGD: В направлении стабильного обучения с подкреплением на основе правил для языковых моделей

CPGD: Toward Stable Rule-based Reinforcement Learning for Language Models

May 18, 2025
Авторы: Zongkai Liu, Fanqing Meng, Lingxiao Du, Zhixiang Zhou, Chao Yu, Wenqi Shao, Qiaosheng Zhang
cs.AI

Аннотация

Последние достижения в области обучения с подкреплением на основе правил (RL) значительно улучшили способность языковых моделей (LMs) к рассуждению с использованием вознаграждений, основанных на правилах. Однако существующие методы RL, такие как GRPO, REINFORCE++ и RLOO, часто сталкиваются с проблемой нестабильности обучения, где крупные обновления политики и неправильное ограничение могут привести к сбою в процессе обучения. Для решения этой проблемы мы предлагаем новый алгоритм — Оптимизацию градиента политики с ограничением на дрейф политики (Clipped Policy Gradient Optimization with Policy Drift, CPGD), предназначенный для стабилизации обучения политики в языковых моделях. CPGD вводит ограничение на дрейф политики, основанное на дивергенции Кульбака-Лейблера, для динамической регуляризации обновлений политики, а также использует механизм ограничения на логарифм отношения, чтобы предотвратить чрезмерные обновления политики. Мы предоставляем теоретическое обоснование CPGD и демонстрируем с помощью эмпирического анализа, что он устраняет нестабильность, наблюдаемую в предыдущих подходах. Кроме того, мы показываем, что CPGD значительно улучшает производительность, сохраняя стабильность обучения. Наша реализация сочетает теоретическую строгость с практической применимостью, предлагая надежную альтернативу для RL в пост-обучении языковых моделей. Мы публикуем наш код по адресу https://github.com/ModalMinds/MM-EUREKA.
English
Recent advances in rule-based reinforcement learning (RL) have significantly improved the reasoning capability of language models (LMs) with rule-based rewards. However, existing RL methods -- such as GRPO, REINFORCE++, and RLOO -- often suffer from training instability, where large policy updates and improper clipping can lead to training collapse. To address this issue, we propose Clipped Policy Gradient Optimization with Policy Drift (CPGD), a novel algorithm designed to stabilize policy learning in LMs. CPGD introduces a policy drift constraint based on KL divergence to dynamically regularize policy updates, and leverages a clip mechanism on the logarithm of the ratio to prevent excessive policy updates. We provide theoretical justification for CPGD and demonstrate through empirical analysis that it mitigates the instability observed in prior approaches. Furthermore, we show that CPGD significantly improves performance while maintaining training stability. Our implementation balances theoretical rigor with practical usability, offering a robust alternative for RL in the post-training of LMs. We release our code at https://github.com/ModalMinds/MM-EUREKA.

Summary

AI-Generated Summary

PDF202May 20, 2025