ChatPaper.aiChatPaper

Cooper: Co-Ottimizzazione di Modelli di Politica e Ricompensa nell'Apprendimento per Rinforzo per Modelli Linguistici di Grande Scala

Cooper: Co-Optimizing Policy and Reward Models in Reinforcement Learning for Large Language Models

August 7, 2025
Autori: Haitao Hong, Yuchen Yan, Xingyu Wu, Guiyang Hou, Wenqi Zhang, Weiming Lu, Yongliang Shen, Jun Xiao
cs.AI

Abstract

I grandi modelli linguistici (LLM) hanno dimostrato prestazioni notevoli nei compiti di ragionamento, dove l'apprendimento per rinforzo (RL) funge da algoritmo chiave per potenziare le loro capacità di ragionamento. Attualmente, esistono due paradigmi principali di ricompensa: ricompense basate su modelli e ricompense basate su regole. Tuttavia, entrambi gli approcci presentano limitazioni: le ricompense basate su regole mancano di robustezza, mentre quelle basate su modelli sono vulnerabili al fenomeno del "reward hacking". Per affrontare questi problemi, proponiamo Cooper (Co-ottimizzazione del Modello di Politica e del Modello di Ricompensa), un framework RL che ottimizza congiuntamente sia il modello di politica che il modello di ricompensa. Cooper sfrutta l'alta precisione delle ricompense basate su regole nell'identificare risposte corrette e costruisce e seleziona dinamicamente coppie di campioni positivi-negativi per continuare l'addestramento del modello di ricompensa. Questo design migliora la robustezza e mitiga il rischio di reward hacking. Per supportare ulteriormente Cooper, introduciamo una strategia di annotazione ibrida che genera in modo efficiente e accurato dati di addestramento per il modello di ricompensa. Proponiamo inoltre un paradigma di modellazione della ricompensa basato su riferimenti, in cui il modello di ricompensa prende in input una risposta di riferimento. Basandoci su questo design, addestriamo un modello di ricompensa chiamato VerifyRM, che raggiunge una maggiore accuratezza su VerifyBench rispetto ad altri modelli delle stesse dimensioni. Eseguiamo l'apprendimento per rinforzo utilizzando sia VerifyRM che Cooper. I nostri esperimenti dimostrano che Cooper non solo allevia il reward hacking, ma migliora anche le prestazioni end-to-end dell'RL, ad esempio ottenendo un guadagno dello 0,54% nell'accuratezza media su Qwen2.5-1.5B-Instruct. I nostri risultati dimostrano che l'aggiornamento dinamico del modello di ricompensa è un modo efficace per contrastare il reward hacking, fornendo un riferimento per una migliore integrazione dei modelli di ricompensa nell'RL.
English
Large language models (LLMs) have demonstrated remarkable performance in reasoning tasks, where reinforcement learning (RL) serves as a key algorithm for enhancing their reasoning capabilities. Currently, there are two mainstream reward paradigms: model-based rewards and rule-based rewards. However, both approaches suffer from limitations: rule-based rewards lack robustness, while model-based rewards are vulnerable to reward hacking. To address these issues, we propose Cooper(Co-optimizing Policy Model and Reward Model), a RL framework that jointly optimizes both the policy model and the reward model. Cooper leverages the high precision of rule-based rewards when identifying correct responses, and dynamically constructs and selects positive-negative sample pairs for continued training the reward model. This design enhances robustness and mitigates the risk of reward hacking. To further support Cooper, we introduce a hybrid annotation strategy that efficiently and accurately generates training data for the reward model. We also propose a reference-based reward modeling paradigm, where the reward model takes a reference answer as input. Based on this design, we train a reward model named VerifyRM, which achieves higher accuracy on VerifyBench compared to other models of the same size. We conduct reinforcement learning using both VerifyRM and Cooper. Our experiments show that Cooper not only alleviates reward hacking but also improves end-to-end RL performance, for instance, achieving a 0.54% gain in average accuracy on Qwen2.5-1.5B-Instruct. Our findings demonstrate that dynamically updating reward model is an effective way to combat reward hacking, providing a reference for better integrating reward models into RL.
PDF172August 14, 2025