Cooper: Gemeinsame Optimierung von Policy- und Belohnungsmodellen im Reinforcement Learning für große Sprachmodelle
Cooper: Co-Optimizing Policy and Reward Models in Reinforcement Learning for Large Language Models
August 7, 2025
papers.authors: Haitao Hong, Yuchen Yan, Xingyu Wu, Guiyang Hou, Wenqi Zhang, Weiming Lu, Yongliang Shen, Jun Xiao
cs.AI
papers.abstract
Große Sprachmodelle (LLMs) haben bemerkenswerte Leistungen bei Denkaufgaben gezeigt, wobei Reinforcement Learning (RL) als Schlüsselalgorithmus zur Verbesserung ihrer Denkfähigkeiten dient. Derzeit gibt es zwei gängige Belohnungsparadigmen: modellbasierte Belohnungen und regelbasierte Belohnungen. Beide Ansätze weisen jedoch Einschränkungen auf: Regelbasierte Belohnungen fehlt es an Robustheit, während modellbasierte Belohnungen anfällig für Reward Hacking sind. Um diese Probleme zu lösen, schlagen wir Cooper (Co-optimizing Policy Model and Reward Model) vor, ein RL-Framework, das sowohl das Policy-Modell als auch das Belohnungsmodell gemeinsam optimiert. Cooper nutzt die hohe Präzision regelbasierter Belohnungen bei der Identifizierung korrekter Antworten und konstruiert und selektiert dynamisch Positiv-Negativ-Beispielpaare für das kontinuierliche Training des Belohnungsmodells. Dieser Ansatz erhöht die Robustheit und mindert das Risiko von Reward Hacking. Um Cooper weiter zu unterstützen, führen wir eine hybride Annotationsstrategie ein, die effizient und präzise Trainingsdaten für das Belohnungsmodell generiert. Wir schlagen außerdem ein referenzbasiertes Belohnungsmodellierungsparadigma vor, bei dem das Belohnungsmodell eine Referenzantwort als Eingabe erhält. Basierend auf diesem Design trainieren wir ein Belohnungsmodell namens VerifyRM, das auf VerifyBench eine höhere Genauigkeit im Vergleich zu anderen Modellen gleicher Größe erreicht. Wir führen Reinforcement Learning sowohl mit VerifyRM als auch mit Cooper durch. Unsere Experimente zeigen, dass Cooper nicht nur Reward Hacking reduziert, sondern auch die end-to-end RL-Leistung verbessert, beispielsweise mit einem durchschnittlichen Genauigkeitsgewinn von 0,54 % bei Qwen2.5-1.5B-Instruct. Unsere Ergebnisse demonstrieren, dass die dynamische Aktualisierung des Belohnungsmodells ein effektiver Weg ist, um Reward Hacking zu bekämpfen, und bieten eine Referenz für die bessere Integration von Belohnungsmodellen in RL.
English
Large language models (LLMs) have demonstrated remarkable performance in
reasoning tasks, where reinforcement learning (RL) serves as a key algorithm
for enhancing their reasoning capabilities. Currently, there are two mainstream
reward paradigms: model-based rewards and rule-based rewards. However, both
approaches suffer from limitations: rule-based rewards lack robustness, while
model-based rewards are vulnerable to reward hacking. To address these issues,
we propose Cooper(Co-optimizing Policy Model and Reward Model), a RL framework
that jointly optimizes both the policy model and the reward model. Cooper
leverages the high precision of rule-based rewards when identifying correct
responses, and dynamically constructs and selects positive-negative sample
pairs for continued training the reward model. This design enhances robustness
and mitigates the risk of reward hacking. To further support Cooper, we
introduce a hybrid annotation strategy that efficiently and accurately
generates training data for the reward model. We also propose a reference-based
reward modeling paradigm, where the reward model takes a reference answer as
input. Based on this design, we train a reward model named VerifyRM, which
achieves higher accuracy on VerifyBench compared to other models of the same
size. We conduct reinforcement learning using both VerifyRM and Cooper. Our
experiments show that Cooper not only alleviates reward hacking but also
improves end-to-end RL performance, for instance, achieving a 0.54% gain in
average accuracy on Qwen2.5-1.5B-Instruct. Our findings demonstrate that
dynamically updating reward model is an effective way to combat reward hacking,
providing a reference for better integrating reward models into RL.