Cooper: Gezamenlijke Optimalisatie van Beleids- en Beloningsmodellen in Reinforcement Learning voor Grote Taalmodellen

Samenvatting

Grote taalmodellen (LLMs) hebben opmerkelijke prestaties getoond in redeneertaken, waarbij reinforcement learning (RL) een sleutelalgoritme is voor het verbeteren van hun redeneervermogen. Momenteel zijn er twee hoofdstromen in beloningsparadigma's: modelgebaseerde beloningen en regelgebaseerde beloningen. Beide benaderingen hebben echter beperkingen: regelgebaseerde beloningen missen robuustheid, terwijl modelgebaseerde beloningen kwetsbaar zijn voor beloningsmanipulatie. Om deze problemen aan te pakken, stellen we Cooper (Co-optimizing Policy Model and Reward Model) voor, een RL-framework dat zowel het beleidsmodel als het beloningsmodel gezamenlijk optimaliseert. Cooper maakt gebruik van de hoge precisie van regelgebaseerde beloningen bij het identificeren van correcte antwoorden en construeert en selecteert dynamisch positief-negatieve voorbeeldparen voor het voortgezette trainen van het beloningsmodel. Dit ontwerp verhoogt de robuustheid en vermindert het risico op beloningsmanipulatie. Om Cooper verder te ondersteunen, introduceren we een hybride annotatiestrategie die efficiënt en nauwkeurig trainingsgegevens genereert voor het beloningsmodel. We stellen ook een referentiegebaseerd beloningsmodelparadigma voor, waarbij het beloningsmodel een referentieantwoord als invoer neemt. Op basis van dit ontwerp trainen we een beloningsmodel genaamd VerifyRM, dat een hogere nauwkeurigheid behaalt op VerifyBench in vergelijking met andere modellen van dezelfde grootte. We voeren reinforcement learning uit met zowel VerifyRM als Cooper. Onze experimenten tonen aan dat Cooper niet alleen beloningsmanipulatie vermindert, maar ook de end-to-end RL-prestaties verbetert, bijvoorbeeld met een winst van 0,54% in gemiddelde nauwkeurigheid op Qwen2.5-1.5B-Instruct. Onze bevindingen laten zien dat het dynamisch bijwerken van het beloningsmodel een effectieve manier is om beloningsmanipulatie tegen te gaan, en bieden een referentie voor het beter integreren van beloningsmodellen in RL.

English

Large language models (LLMs) have demonstrated remarkable performance in reasoning tasks, where reinforcement learning (RL) serves as a key algorithm for enhancing their reasoning capabilities. Currently, there are two mainstream reward paradigms: model-based rewards and rule-based rewards. However, both approaches suffer from limitations: rule-based rewards lack robustness, while model-based rewards are vulnerable to reward hacking. To address these issues, we propose Cooper(Co-optimizing Policy Model and Reward Model), a RL framework that jointly optimizes both the policy model and the reward model. Cooper leverages the high precision of rule-based rewards when identifying correct responses, and dynamically constructs and selects positive-negative sample pairs for continued training the reward model. This design enhances robustness and mitigates the risk of reward hacking. To further support Cooper, we introduce a hybrid annotation strategy that efficiently and accurately generates training data for the reward model. We also propose a reference-based reward modeling paradigm, where the reward model takes a reference answer as input. Based on this design, we train a reward model named VerifyRM, which achieves higher accuracy on VerifyBench compared to other models of the same size. We conduct reinforcement learning using both VerifyRM and Cooper. Our experiments show that Cooper not only alleviates reward hacking but also improves end-to-end RL performance, for instance, achieving a 0.54% gain in average accuracy on Qwen2.5-1.5B-Instruct. Our findings demonstrate that dynamically updating reward model is an effective way to combat reward hacking, providing a reference for better integrating reward models into RL.

Cooper: Gezamenlijke Optimalisatie van Beleids- en Beloningsmodellen in Reinforcement Learning voor Grote Taalmodellen

Cooper: Co-Optimizing Policy and Reward Models in Reinforcement Learning for Large Language Models

Samenvatting

Support