Cooper: Совместная оптимизация моделей политики и вознаграждения в обучении с подкреплением для крупных языковых моделей

Аннотация

Крупные языковые модели (LLM) продемонстрировали выдающиеся результаты в задачах, требующих рассуждений, где обучение с подкреплением (RL) выступает ключевым алгоритмом для улучшения их способностей к рассуждению. В настоящее время существуют две основные парадигмы вознаграждений: вознаграждения на основе моделей и вознаграждения на основе правил. Однако обе подходы имеют ограничения: вознаграждения на основе правил недостаточно устойчивы, а вознаграждения на основе моделей уязвимы к манипуляциям с вознаграждениями. Для решения этих проблем мы предлагаем Cooper (Co-optimizing Policy Model and Reward Model), RL-фреймворк, который совместно оптимизирует как модель политики, так и модель вознаграждения. Cooper использует высокую точность вознаграждений на основе правил при идентификации правильных ответов и динамически формирует и выбирает пары положительных и отрицательных примеров для продолжения обучения модели вознаграждения. Такой подход повышает устойчивость и снижает риск манипуляций с вознаграждениями. Для дальнейшей поддержки Cooper мы вводим гибридную стратегию аннотирования, которая эффективно и точно генерирует обучающие данные для модели вознаграждения. Мы также предлагаем парадигму моделирования вознаграждений на основе эталонных ответов, где модель вознаграждения принимает эталонный ответ на вход. На основе этого подхода мы обучаем модель вознаграждения под названием VerifyRM, которая демонстрирует более высокую точность на VerifyBench по сравнению с другими моделями аналогичного размера. Мы проводим обучение с подкреплением с использованием как VerifyRM, так и Cooper. Наши эксперименты показывают, что Cooper не только снижает риск манипуляций с вознаграждениями, но и улучшает производительность RL в целом, например, достигая увеличения средней точности на 0.54% для модели Qwen2.5-1.5B-Instruct. Наши результаты демонстрируют, что динамическое обновление модели вознаграждения является эффективным способом борьбы с манипуляциями с вознаграждениями, предоставляя ориентир для лучшей интеграции моделей вознаграждения в RL.

English

Large language models (LLMs) have demonstrated remarkable performance in reasoning tasks, where reinforcement learning (RL) serves as a key algorithm for enhancing their reasoning capabilities. Currently, there are two mainstream reward paradigms: model-based rewards and rule-based rewards. However, both approaches suffer from limitations: rule-based rewards lack robustness, while model-based rewards are vulnerable to reward hacking. To address these issues, we propose Cooper(Co-optimizing Policy Model and Reward Model), a RL framework that jointly optimizes both the policy model and the reward model. Cooper leverages the high precision of rule-based rewards when identifying correct responses, and dynamically constructs and selects positive-negative sample pairs for continued training the reward model. This design enhances robustness and mitigates the risk of reward hacking. To further support Cooper, we introduce a hybrid annotation strategy that efficiently and accurately generates training data for the reward model. We also propose a reference-based reward modeling paradigm, where the reward model takes a reference answer as input. Based on this design, we train a reward model named VerifyRM, which achieves higher accuracy on VerifyBench compared to other models of the same size. We conduct reinforcement learning using both VerifyRM and Cooper. Our experiments show that Cooper not only alleviates reward hacking but also improves end-to-end RL performance, for instance, achieving a 0.54% gain in average accuracy on Qwen2.5-1.5B-Instruct. Our findings demonstrate that dynamically updating reward model is an effective way to combat reward hacking, providing a reference for better integrating reward models into RL.

Cooper: Совместная оптимизация моделей политики и вознаграждения в обучении с подкреплением для крупных языковых моделей

Cooper: Co-Optimizing Policy and Reward Models in Reinforcement Learning for Large Language Models

Аннотация

Support