ChatPaper.aiChatPaper

Cooper : Co-optimisation des modèles de politique et de récompense en apprentissage par renforcement pour les grands modèles de langage

Cooper: Co-Optimizing Policy and Reward Models in Reinforcement Learning for Large Language Models

August 7, 2025
papers.authors: Haitao Hong, Yuchen Yan, Xingyu Wu, Guiyang Hou, Wenqi Zhang, Weiming Lu, Yongliang Shen, Jun Xiao
cs.AI

papers.abstract

Les grands modèles de langage (LLM) ont démontré des performances remarquables dans les tâches de raisonnement, où l'apprentissage par renforcement (RL) sert d'algorithme clé pour améliorer leurs capacités de raisonnement. Actuellement, il existe deux paradigmes de récompense dominants : les récompenses basées sur des modèles et les récompenses basées sur des règles. Cependant, ces deux approches présentent des limites : les récompenses basées sur des règles manquent de robustesse, tandis que les récompenses basées sur des modèles sont vulnérables au piratage des récompenses. Pour résoudre ces problèmes, nous proposons Cooper (Co-optimisation du modèle de politique et du modèle de récompense), un cadre RL qui optimise conjointement le modèle de politique et le modèle de récompense. Cooper exploite la haute précision des récompenses basées sur des règles pour identifier les réponses correctes, et construit et sélectionne dynamiquement des paires d'échantillons positifs-négatifs pour continuer à entraîner le modèle de récompense. Cette conception améliore la robustesse et atténue le risque de piratage des récompenses. Pour soutenir davantage Cooper, nous introduisons une stratégie d'annotation hybride qui génère efficacement et précisément des données d'entraînement pour le modèle de récompense. Nous proposons également un paradigme de modélisation des récompenses basé sur des références, où le modèle de récompense prend une réponse de référence en entrée. Sur la base de cette conception, nous entraînons un modèle de récompense nommé VerifyRM, qui atteint une précision plus élevée sur VerifyBench par rapport à d'autres modèles de même taille. Nous menons un apprentissage par renforcement en utilisant à la fois VerifyRM et Cooper. Nos expériences montrent que Cooper non seulement atténue le piratage des récompenses, mais améliore également les performances RL de bout en bout, par exemple en obtenant un gain de 0,54 % en précision moyenne sur Qwen2.5-1.5B-Instruct. Nos résultats démontrent que la mise à jour dynamique du modèle de récompense est un moyen efficace de lutter contre le piratage des récompenses, fournissant une référence pour mieux intégrer les modèles de récompense dans le RL.
English
Large language models (LLMs) have demonstrated remarkable performance in reasoning tasks, where reinforcement learning (RL) serves as a key algorithm for enhancing their reasoning capabilities. Currently, there are two mainstream reward paradigms: model-based rewards and rule-based rewards. However, both approaches suffer from limitations: rule-based rewards lack robustness, while model-based rewards are vulnerable to reward hacking. To address these issues, we propose Cooper(Co-optimizing Policy Model and Reward Model), a RL framework that jointly optimizes both the policy model and the reward model. Cooper leverages the high precision of rule-based rewards when identifying correct responses, and dynamically constructs and selects positive-negative sample pairs for continued training the reward model. This design enhances robustness and mitigates the risk of reward hacking. To further support Cooper, we introduce a hybrid annotation strategy that efficiently and accurately generates training data for the reward model. We also propose a reference-based reward modeling paradigm, where the reward model takes a reference answer as input. Based on this design, we train a reward model named VerifyRM, which achieves higher accuracy on VerifyBench compared to other models of the same size. We conduct reinforcement learning using both VerifyRM and Cooper. Our experiments show that Cooper not only alleviates reward hacking but also improves end-to-end RL performance, for instance, achieving a 0.54% gain in average accuracy on Qwen2.5-1.5B-Instruct. Our findings demonstrate that dynamically updating reward model is an effective way to combat reward hacking, providing a reference for better integrating reward models into RL.
PDF102August 14, 2025