Cooper: Co-Otimização de Modelos de Política e Recompensa em Aprendizado por Reforço para Modelos de Linguagem de Grande Escala
Cooper: Co-Optimizing Policy and Reward Models in Reinforcement Learning for Large Language Models
August 7, 2025
Autores: Haitao Hong, Yuchen Yan, Xingyu Wu, Guiyang Hou, Wenqi Zhang, Weiming Lu, Yongliang Shen, Jun Xiao
cs.AI
Resumo
Modelos de linguagem de grande escala (LLMs) têm demonstrado desempenho notável em tarefas de raciocínio, onde o aprendizado por reforço (RL) serve como um algoritmo chave para aprimorar suas capacidades de raciocínio. Atualmente, existem dois paradigmas principais de recompensa: recompensas baseadas em modelos e recompensas baseadas em regras. No entanto, ambas as abordagens sofrem limitações: recompensas baseadas em regras carecem de robustez, enquanto recompensas baseadas em modelos são vulneráveis a manipulação de recompensas (reward hacking). Para resolver esses problemas, propomos o Cooper (Co-otimização do Modelo de Política e do Modelo de Recompensa), um framework de RL que otimiza conjuntamente o modelo de política e o modelo de recompensa. O Cooper aproveita a alta precisão das recompensas baseadas em regras ao identificar respostas corretas e constrói e seleciona dinamicamente pares de amostras positivas-negativas para continuar treinando o modelo de recompensa. Esse design aumenta a robustez e mitiga o risco de manipulação de recompensas. Para apoiar ainda mais o Cooper, introduzimos uma estratégia de anotação híbrida que gera dados de treinamento para o modelo de recompensa de forma eficiente e precisa. Também propomos um paradigma de modelagem de recompensa baseado em referência, onde o modelo de recompensa recebe uma resposta de referência como entrada. Com base nesse design, treinamos um modelo de recompensa chamado VerifyRM, que alcança maior precisão no VerifyBench em comparação com outros modelos do mesmo tamanho. Realizamos aprendizado por reforço usando tanto o VerifyRM quanto o Cooper. Nossos experimentos mostram que o Cooper não apenas alivia a manipulação de recompensas, mas também melhora o desempenho de RL de ponta a ponta, por exemplo, alcançando um ganho de 0,54% na precisão média no Qwen2.5-1.5B-Instruct. Nossos resultados demonstram que a atualização dinâmica do modelo de recompensa é uma maneira eficaz de combater a manipulação de recompensas, fornecendo uma referência para integrar melhor modelos de recompensa em RL.
English
Large language models (LLMs) have demonstrated remarkable performance in
reasoning tasks, where reinforcement learning (RL) serves as a key algorithm
for enhancing their reasoning capabilities. Currently, there are two mainstream
reward paradigms: model-based rewards and rule-based rewards. However, both
approaches suffer from limitations: rule-based rewards lack robustness, while
model-based rewards are vulnerable to reward hacking. To address these issues,
we propose Cooper(Co-optimizing Policy Model and Reward Model), a RL framework
that jointly optimizes both the policy model and the reward model. Cooper
leverages the high precision of rule-based rewards when identifying correct
responses, and dynamically constructs and selects positive-negative sample
pairs for continued training the reward model. This design enhances robustness
and mitigates the risk of reward hacking. To further support Cooper, we
introduce a hybrid annotation strategy that efficiently and accurately
generates training data for the reward model. We also propose a reference-based
reward modeling paradigm, where the reward model takes a reference answer as
input. Based on this design, we train a reward model named VerifyRM, which
achieves higher accuracy on VerifyBench compared to other models of the same
size. We conduct reinforcement learning using both VerifyRM and Cooper. Our
experiments show that Cooper not only alleviates reward hacking but also
improves end-to-end RL performance, for instance, achieving a 0.54% gain in
average accuracy on Qwen2.5-1.5B-Instruct. Our findings demonstrate that
dynamically updating reward model is an effective way to combat reward hacking,
providing a reference for better integrating reward models into RL.