Cooper: Co-Ottimizzazione di Modelli di Politica e Ricompensa nell'Apprendimento per Rinforzo per Modelli Linguistici di Grande Scala
Cooper: Co-Optimizing Policy and Reward Models in Reinforcement Learning for Large Language Models
August 7, 2025
Autori: Haitao Hong, Yuchen Yan, Xingyu Wu, Guiyang Hou, Wenqi Zhang, Weiming Lu, Yongliang Shen, Jun Xiao
cs.AI
Abstract
I grandi modelli linguistici (LLM) hanno dimostrato prestazioni notevoli nei compiti di ragionamento, dove l'apprendimento per rinforzo (RL) funge da algoritmo chiave per potenziare le loro capacità di ragionamento. Attualmente, esistono due paradigmi principali di ricompensa: ricompense basate su modelli e ricompense basate su regole. Tuttavia, entrambi gli approcci presentano limitazioni: le ricompense basate su regole mancano di robustezza, mentre quelle basate su modelli sono vulnerabili al fenomeno del "reward hacking". Per affrontare questi problemi, proponiamo Cooper (Co-ottimizzazione del Modello di Politica e del Modello di Ricompensa), un framework RL che ottimizza congiuntamente sia il modello di politica che il modello di ricompensa. Cooper sfrutta l'alta precisione delle ricompense basate su regole nell'identificare risposte corrette e costruisce e seleziona dinamicamente coppie di campioni positivi-negativi per continuare l'addestramento del modello di ricompensa. Questo design migliora la robustezza e mitiga il rischio di reward hacking. Per supportare ulteriormente Cooper, introduciamo una strategia di annotazione ibrida che genera in modo efficiente e accurato dati di addestramento per il modello di ricompensa. Proponiamo inoltre un paradigma di modellazione della ricompensa basato su riferimenti, in cui il modello di ricompensa prende in input una risposta di riferimento. Basandoci su questo design, addestriamo un modello di ricompensa chiamato VerifyRM, che raggiunge una maggiore accuratezza su VerifyBench rispetto ad altri modelli delle stesse dimensioni. Eseguiamo l'apprendimento per rinforzo utilizzando sia VerifyRM che Cooper. I nostri esperimenti dimostrano che Cooper non solo allevia il reward hacking, ma migliora anche le prestazioni end-to-end dell'RL, ad esempio ottenendo un guadagno dello 0,54% nell'accuratezza media su Qwen2.5-1.5B-Instruct. I nostri risultati dimostrano che l'aggiornamento dinamico del modello di ricompensa è un modo efficace per contrastare il reward hacking, fornendo un riferimento per una migliore integrazione dei modelli di ricompensa nell'RL.
English
Large language models (LLMs) have demonstrated remarkable performance in
reasoning tasks, where reinforcement learning (RL) serves as a key algorithm
for enhancing their reasoning capabilities. Currently, there are two mainstream
reward paradigms: model-based rewards and rule-based rewards. However, both
approaches suffer from limitations: rule-based rewards lack robustness, while
model-based rewards are vulnerable to reward hacking. To address these issues,
we propose Cooper(Co-optimizing Policy Model and Reward Model), a RL framework
that jointly optimizes both the policy model and the reward model. Cooper
leverages the high precision of rule-based rewards when identifying correct
responses, and dynamically constructs and selects positive-negative sample
pairs for continued training the reward model. This design enhances robustness
and mitigates the risk of reward hacking. To further support Cooper, we
introduce a hybrid annotation strategy that efficiently and accurately
generates training data for the reward model. We also propose a reference-based
reward modeling paradigm, where the reward model takes a reference answer as
input. Based on this design, we train a reward model named VerifyRM, which
achieves higher accuracy on VerifyBench compared to other models of the same
size. We conduct reinforcement learning using both VerifyRM and Cooper. Our
experiments show that Cooper not only alleviates reward hacking but also
improves end-to-end RL performance, for instance, achieving a 0.54% gain in
average accuracy on Qwen2.5-1.5B-Instruct. Our findings demonstrate that
dynamically updating reward model is an effective way to combat reward hacking,
providing a reference for better integrating reward models into RL.