Cooper: Co-Otimização de Modelos de Política e Recompensa em Aprendizado por Reforço para Modelos de Linguagem de Grande Escala

Resumo

Modelos de linguagem de grande escala (LLMs) têm demonstrado desempenho notável em tarefas de raciocínio, onde o aprendizado por reforço (RL) serve como um algoritmo chave para aprimorar suas capacidades de raciocínio. Atualmente, existem dois paradigmas principais de recompensa: recompensas baseadas em modelos e recompensas baseadas em regras. No entanto, ambas as abordagens sofrem limitações: recompensas baseadas em regras carecem de robustez, enquanto recompensas baseadas em modelos são vulneráveis a manipulação de recompensas (reward hacking). Para resolver esses problemas, propomos o Cooper (Co-otimização do Modelo de Política e do Modelo de Recompensa), um framework de RL que otimiza conjuntamente o modelo de política e o modelo de recompensa. O Cooper aproveita a alta precisão das recompensas baseadas em regras ao identificar respostas corretas e constrói e seleciona dinamicamente pares de amostras positivas-negativas para continuar treinando o modelo de recompensa. Esse design aumenta a robustez e mitiga o risco de manipulação de recompensas. Para apoiar ainda mais o Cooper, introduzimos uma estratégia de anotação híbrida que gera dados de treinamento para o modelo de recompensa de forma eficiente e precisa. Também propomos um paradigma de modelagem de recompensa baseado em referência, onde o modelo de recompensa recebe uma resposta de referência como entrada. Com base nesse design, treinamos um modelo de recompensa chamado VerifyRM, que alcança maior precisão no VerifyBench em comparação com outros modelos do mesmo tamanho. Realizamos aprendizado por reforço usando tanto o VerifyRM quanto o Cooper. Nossos experimentos mostram que o Cooper não apenas alivia a manipulação de recompensas, mas também melhora o desempenho de RL de ponta a ponta, por exemplo, alcançando um ganho de 0,54% na precisão média no Qwen2.5-1.5B-Instruct. Nossos resultados demonstram que a atualização dinâmica do modelo de recompensa é uma maneira eficaz de combater a manipulação de recompensas, fornecendo uma referência para integrar melhor modelos de recompensa em RL.

English

Large language models (LLMs) have demonstrated remarkable performance in reasoning tasks, where reinforcement learning (RL) serves as a key algorithm for enhancing their reasoning capabilities. Currently, there are two mainstream reward paradigms: model-based rewards and rule-based rewards. However, both approaches suffer from limitations: rule-based rewards lack robustness, while model-based rewards are vulnerable to reward hacking. To address these issues, we propose Cooper(Co-optimizing Policy Model and Reward Model), a RL framework that jointly optimizes both the policy model and the reward model. Cooper leverages the high precision of rule-based rewards when identifying correct responses, and dynamically constructs and selects positive-negative sample pairs for continued training the reward model. This design enhances robustness and mitigates the risk of reward hacking. To further support Cooper, we introduce a hybrid annotation strategy that efficiently and accurately generates training data for the reward model. We also propose a reference-based reward modeling paradigm, where the reward model takes a reference answer as input. Based on this design, we train a reward model named VerifyRM, which achieves higher accuracy on VerifyBench compared to other models of the same size. We conduct reinforcement learning using both VerifyRM and Cooper. Our experiments show that Cooper not only alleviates reward hacking but also improves end-to-end RL performance, for instance, achieving a 0.54% gain in average accuracy on Qwen2.5-1.5B-Instruct. Our findings demonstrate that dynamically updating reward model is an effective way to combat reward hacking, providing a reference for better integrating reward models into RL.

Cooper: Co-Otimização de Modelos de Política e Recompensa em Aprendizado por Reforço para Modelos de Linguagem de Grande Escala

Cooper: Co-Optimizing Policy and Reward Models in Reinforcement Learning for Large Language Models

Resumo

Support