ChatPaper.aiChatPaper

Cooper: Gemeinsame Optimierung von Policy- und Belohnungsmodellen im Reinforcement Learning für große Sprachmodelle

Cooper: Co-Optimizing Policy and Reward Models in Reinforcement Learning for Large Language Models

August 7, 2025
papers.authors: Haitao Hong, Yuchen Yan, Xingyu Wu, Guiyang Hou, Wenqi Zhang, Weiming Lu, Yongliang Shen, Jun Xiao
cs.AI

papers.abstract

Große Sprachmodelle (LLMs) haben bemerkenswerte Leistungen bei Denkaufgaben gezeigt, wobei Reinforcement Learning (RL) als Schlüsselalgorithmus zur Verbesserung ihrer Denkfähigkeiten dient. Derzeit gibt es zwei gängige Belohnungsparadigmen: modellbasierte Belohnungen und regelbasierte Belohnungen. Beide Ansätze weisen jedoch Einschränkungen auf: Regelbasierte Belohnungen fehlt es an Robustheit, während modellbasierte Belohnungen anfällig für Reward Hacking sind. Um diese Probleme zu lösen, schlagen wir Cooper (Co-optimizing Policy Model and Reward Model) vor, ein RL-Framework, das sowohl das Policy-Modell als auch das Belohnungsmodell gemeinsam optimiert. Cooper nutzt die hohe Präzision regelbasierter Belohnungen bei der Identifizierung korrekter Antworten und konstruiert und selektiert dynamisch Positiv-Negativ-Beispielpaare für das kontinuierliche Training des Belohnungsmodells. Dieser Ansatz erhöht die Robustheit und mindert das Risiko von Reward Hacking. Um Cooper weiter zu unterstützen, führen wir eine hybride Annotationsstrategie ein, die effizient und präzise Trainingsdaten für das Belohnungsmodell generiert. Wir schlagen außerdem ein referenzbasiertes Belohnungsmodellierungsparadigma vor, bei dem das Belohnungsmodell eine Referenzantwort als Eingabe erhält. Basierend auf diesem Design trainieren wir ein Belohnungsmodell namens VerifyRM, das auf VerifyBench eine höhere Genauigkeit im Vergleich zu anderen Modellen gleicher Größe erreicht. Wir führen Reinforcement Learning sowohl mit VerifyRM als auch mit Cooper durch. Unsere Experimente zeigen, dass Cooper nicht nur Reward Hacking reduziert, sondern auch die end-to-end RL-Leistung verbessert, beispielsweise mit einem durchschnittlichen Genauigkeitsgewinn von 0,54 % bei Qwen2.5-1.5B-Instruct. Unsere Ergebnisse demonstrieren, dass die dynamische Aktualisierung des Belohnungsmodells ein effektiver Weg ist, um Reward Hacking zu bekämpfen, und bieten eine Referenz für die bessere Integration von Belohnungsmodellen in RL.
English
Large language models (LLMs) have demonstrated remarkable performance in reasoning tasks, where reinforcement learning (RL) serves as a key algorithm for enhancing their reasoning capabilities. Currently, there are two mainstream reward paradigms: model-based rewards and rule-based rewards. However, both approaches suffer from limitations: rule-based rewards lack robustness, while model-based rewards are vulnerable to reward hacking. To address these issues, we propose Cooper(Co-optimizing Policy Model and Reward Model), a RL framework that jointly optimizes both the policy model and the reward model. Cooper leverages the high precision of rule-based rewards when identifying correct responses, and dynamically constructs and selects positive-negative sample pairs for continued training the reward model. This design enhances robustness and mitigates the risk of reward hacking. To further support Cooper, we introduce a hybrid annotation strategy that efficiently and accurately generates training data for the reward model. We also propose a reference-based reward modeling paradigm, where the reward model takes a reference answer as input. Based on this design, we train a reward model named VerifyRM, which achieves higher accuracy on VerifyBench compared to other models of the same size. We conduct reinforcement learning using both VerifyRM and Cooper. Our experiments show that Cooper not only alleviates reward hacking but also improves end-to-end RL performance, for instance, achieving a 0.54% gain in average accuracy on Qwen2.5-1.5B-Instruct. Our findings demonstrate that dynamically updating reward model is an effective way to combat reward hacking, providing a reference for better integrating reward models into RL.
PDF102August 14, 2025