ChatPaper.aiChatPaper

Cooper: Co-Optimización de Modelos de Política y Recompensa en Aprendizaje por Refuerzo para Modelos de Lenguaje a Gran Escala

Cooper: Co-Optimizing Policy and Reward Models in Reinforcement Learning for Large Language Models

August 7, 2025
Autores: Haitao Hong, Yuchen Yan, Xingyu Wu, Guiyang Hou, Wenqi Zhang, Weiming Lu, Yongliang Shen, Jun Xiao
cs.AI

Resumen

Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado un rendimiento notable en tareas de razonamiento, donde el aprendizaje por refuerzo (RL, por sus siglas en inglés) sirve como un algoritmo clave para mejorar sus capacidades de razonamiento. Actualmente, existen dos paradigmas principales de recompensas: recompensas basadas en modelos y recompensas basadas en reglas. Sin embargo, ambos enfoques presentan limitaciones: las recompensas basadas en reglas carecen de robustez, mientras que las recompensas basadas en modelos son vulnerables al "reward hacking" (manipulación de recompensas). Para abordar estos problemas, proponemos Cooper (Co-optimización del Modelo de Política y el Modelo de Recompensa), un marco de RL que optimiza conjuntamente tanto el modelo de política como el modelo de recompensa. Cooper aprovecha la alta precisión de las recompensas basadas en reglas al identificar respuestas correctas, y construye y selecciona dinámicamente pares de muestras positivas-negativas para continuar entrenando el modelo de recompensa. Este diseño mejora la robustez y mitiga el riesgo de "reward hacking". Para respaldar aún más a Cooper, introducimos una estrategia de anotación híbrida que genera datos de entrenamiento para el modelo de recompensa de manera eficiente y precisa. También proponemos un paradigma de modelado de recompensas basado en referencias, donde el modelo de recompensa toma una respuesta de referencia como entrada. Basándonos en este diseño, entrenamos un modelo de recompensa llamado VerifyRM, que logra una mayor precisión en VerifyBench en comparación con otros modelos del mismo tamaño. Realizamos aprendizaje por refuerzo utilizando tanto VerifyRM como Cooper. Nuestros experimentos muestran que Cooper no solo alivia el "reward hacking", sino que también mejora el rendimiento de RL de extremo a extremo, por ejemplo, logrando una ganancia del 0.54% en precisión promedio en Qwen2.5-1.5B-Instruct. Nuestros hallazgos demuestran que la actualización dinámica del modelo de recompensa es una forma efectiva de combatir el "reward hacking", proporcionando una referencia para integrar mejor los modelos de recompensa en RL.
English
Large language models (LLMs) have demonstrated remarkable performance in reasoning tasks, where reinforcement learning (RL) serves as a key algorithm for enhancing their reasoning capabilities. Currently, there are two mainstream reward paradigms: model-based rewards and rule-based rewards. However, both approaches suffer from limitations: rule-based rewards lack robustness, while model-based rewards are vulnerable to reward hacking. To address these issues, we propose Cooper(Co-optimizing Policy Model and Reward Model), a RL framework that jointly optimizes both the policy model and the reward model. Cooper leverages the high precision of rule-based rewards when identifying correct responses, and dynamically constructs and selects positive-negative sample pairs for continued training the reward model. This design enhances robustness and mitigates the risk of reward hacking. To further support Cooper, we introduce a hybrid annotation strategy that efficiently and accurately generates training data for the reward model. We also propose a reference-based reward modeling paradigm, where the reward model takes a reference answer as input. Based on this design, we train a reward model named VerifyRM, which achieves higher accuracy on VerifyBench compared to other models of the same size. We conduct reinforcement learning using both VerifyRM and Cooper. Our experiments show that Cooper not only alleviates reward hacking but also improves end-to-end RL performance, for instance, achieving a 0.54% gain in average accuracy on Qwen2.5-1.5B-Instruct. Our findings demonstrate that dynamically updating reward model is an effective way to combat reward hacking, providing a reference for better integrating reward models into RL.
PDF102August 14, 2025