Cooper: Совместная оптимизация моделей политики и вознаграждения в обучении с подкреплением для крупных языковых моделей
Cooper: Co-Optimizing Policy and Reward Models in Reinforcement Learning for Large Language Models
August 7, 2025
Авторы: Haitao Hong, Yuchen Yan, Xingyu Wu, Guiyang Hou, Wenqi Zhang, Weiming Lu, Yongliang Shen, Jun Xiao
cs.AI
Аннотация
Крупные языковые модели (LLM) продемонстрировали выдающиеся результаты в задачах, требующих рассуждений, где обучение с подкреплением (RL) выступает ключевым алгоритмом для улучшения их способностей к рассуждению. В настоящее время существуют две основные парадигмы вознаграждений: вознаграждения на основе моделей и вознаграждения на основе правил. Однако обе подходы имеют ограничения: вознаграждения на основе правил недостаточно устойчивы, а вознаграждения на основе моделей уязвимы к манипуляциям с вознаграждениями. Для решения этих проблем мы предлагаем Cooper (Co-optimizing Policy Model and Reward Model), RL-фреймворк, который совместно оптимизирует как модель политики, так и модель вознаграждения. Cooper использует высокую точность вознаграждений на основе правил при идентификации правильных ответов и динамически формирует и выбирает пары положительных и отрицательных примеров для продолжения обучения модели вознаграждения. Такой подход повышает устойчивость и снижает риск манипуляций с вознаграждениями. Для дальнейшей поддержки Cooper мы вводим гибридную стратегию аннотирования, которая эффективно и точно генерирует обучающие данные для модели вознаграждения. Мы также предлагаем парадигму моделирования вознаграждений на основе эталонных ответов, где модель вознаграждения принимает эталонный ответ на вход. На основе этого подхода мы обучаем модель вознаграждения под названием VerifyRM, которая демонстрирует более высокую точность на VerifyBench по сравнению с другими моделями аналогичного размера. Мы проводим обучение с подкреплением с использованием как VerifyRM, так и Cooper. Наши эксперименты показывают, что Cooper не только снижает риск манипуляций с вознаграждениями, но и улучшает производительность RL в целом, например, достигая увеличения средней точности на 0.54% для модели Qwen2.5-1.5B-Instruct. Наши результаты демонстрируют, что динамическое обновление модели вознаграждения является эффективным способом борьбы с манипуляциями с вознаграждениями, предоставляя ориентир для лучшей интеграции моделей вознаграждения в RL.
English
Large language models (LLMs) have demonstrated remarkable performance in
reasoning tasks, where reinforcement learning (RL) serves as a key algorithm
for enhancing their reasoning capabilities. Currently, there are two mainstream
reward paradigms: model-based rewards and rule-based rewards. However, both
approaches suffer from limitations: rule-based rewards lack robustness, while
model-based rewards are vulnerable to reward hacking. To address these issues,
we propose Cooper(Co-optimizing Policy Model and Reward Model), a RL framework
that jointly optimizes both the policy model and the reward model. Cooper
leverages the high precision of rule-based rewards when identifying correct
responses, and dynamically constructs and selects positive-negative sample
pairs for continued training the reward model. This design enhances robustness
and mitigates the risk of reward hacking. To further support Cooper, we
introduce a hybrid annotation strategy that efficiently and accurately
generates training data for the reward model. We also propose a reference-based
reward modeling paradigm, where the reward model takes a reference answer as
input. Based on this design, we train a reward model named VerifyRM, which
achieves higher accuracy on VerifyBench compared to other models of the same
size. We conduct reinforcement learning using both VerifyRM and Cooper. Our
experiments show that Cooper not only alleviates reward hacking but also
improves end-to-end RL performance, for instance, achieving a 0.54% gain in
average accuracy on Qwen2.5-1.5B-Instruct. Our findings demonstrate that
dynamically updating reward model is an effective way to combat reward hacking,
providing a reference for better integrating reward models into RL.