Cooper: Gezamenlijke Optimalisatie van Beleids- en Beloningsmodellen in Reinforcement Learning voor Grote Taalmodellen
Cooper: Co-Optimizing Policy and Reward Models in Reinforcement Learning for Large Language Models
August 7, 2025
Auteurs: Haitao Hong, Yuchen Yan, Xingyu Wu, Guiyang Hou, Wenqi Zhang, Weiming Lu, Yongliang Shen, Jun Xiao
cs.AI
Samenvatting
Grote taalmodellen (LLMs) hebben opmerkelijke prestaties getoond in redeneertaken, waarbij reinforcement learning (RL) een sleutelalgoritme is voor het verbeteren van hun redeneervermogen. Momenteel zijn er twee hoofdstromen in beloningsparadigma's: modelgebaseerde beloningen en regelgebaseerde beloningen. Beide benaderingen hebben echter beperkingen: regelgebaseerde beloningen missen robuustheid, terwijl modelgebaseerde beloningen kwetsbaar zijn voor beloningsmanipulatie. Om deze problemen aan te pakken, stellen we Cooper (Co-optimizing Policy Model and Reward Model) voor, een RL-framework dat zowel het beleidsmodel als het beloningsmodel gezamenlijk optimaliseert. Cooper maakt gebruik van de hoge precisie van regelgebaseerde beloningen bij het identificeren van correcte antwoorden en construeert en selecteert dynamisch positief-negatieve voorbeeldparen voor het voortgezette trainen van het beloningsmodel. Dit ontwerp verhoogt de robuustheid en vermindert het risico op beloningsmanipulatie. Om Cooper verder te ondersteunen, introduceren we een hybride annotatiestrategie die efficiënt en nauwkeurig trainingsgegevens genereert voor het beloningsmodel. We stellen ook een referentiegebaseerd beloningsmodelparadigma voor, waarbij het beloningsmodel een referentieantwoord als invoer neemt. Op basis van dit ontwerp trainen we een beloningsmodel genaamd VerifyRM, dat een hogere nauwkeurigheid behaalt op VerifyBench in vergelijking met andere modellen van dezelfde grootte. We voeren reinforcement learning uit met zowel VerifyRM als Cooper. Onze experimenten tonen aan dat Cooper niet alleen beloningsmanipulatie vermindert, maar ook de end-to-end RL-prestaties verbetert, bijvoorbeeld met een winst van 0,54% in gemiddelde nauwkeurigheid op Qwen2.5-1.5B-Instruct. Onze bevindingen laten zien dat het dynamisch bijwerken van het beloningsmodel een effectieve manier is om beloningsmanipulatie tegen te gaan, en bieden een referentie voor het beter integreren van beloningsmodellen in RL.
English
Large language models (LLMs) have demonstrated remarkable performance in
reasoning tasks, where reinforcement learning (RL) serves as a key algorithm
for enhancing their reasoning capabilities. Currently, there are two mainstream
reward paradigms: model-based rewards and rule-based rewards. However, both
approaches suffer from limitations: rule-based rewards lack robustness, while
model-based rewards are vulnerable to reward hacking. To address these issues,
we propose Cooper(Co-optimizing Policy Model and Reward Model), a RL framework
that jointly optimizes both the policy model and the reward model. Cooper
leverages the high precision of rule-based rewards when identifying correct
responses, and dynamically constructs and selects positive-negative sample
pairs for continued training the reward model. This design enhances robustness
and mitigates the risk of reward hacking. To further support Cooper, we
introduce a hybrid annotation strategy that efficiently and accurately
generates training data for the reward model. We also propose a reference-based
reward modeling paradigm, where the reward model takes a reference answer as
input. Based on this design, we train a reward model named VerifyRM, which
achieves higher accuracy on VerifyBench compared to other models of the same
size. We conduct reinforcement learning using both VerifyRM and Cooper. Our
experiments show that Cooper not only alleviates reward hacking but also
improves end-to-end RL performance, for instance, achieving a 0.54% gain in
average accuracy on Qwen2.5-1.5B-Instruct. Our findings demonstrate that
dynamically updating reward model is an effective way to combat reward hacking,
providing a reference for better integrating reward models into RL.