Cooper: Co-Optimización de Modelos de Política y Recompensa en Aprendizaje por Refuerzo para Modelos de Lenguaje a Gran Escala
Cooper: Co-Optimizing Policy and Reward Models in Reinforcement Learning for Large Language Models
August 7, 2025
Autores: Haitao Hong, Yuchen Yan, Xingyu Wu, Guiyang Hou, Wenqi Zhang, Weiming Lu, Yongliang Shen, Jun Xiao
cs.AI
Resumen
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado un rendimiento notable en tareas de razonamiento, donde el aprendizaje por refuerzo (RL, por sus siglas en inglés) sirve como un algoritmo clave para mejorar sus capacidades de razonamiento. Actualmente, existen dos paradigmas principales de recompensas: recompensas basadas en modelos y recompensas basadas en reglas. Sin embargo, ambos enfoques presentan limitaciones: las recompensas basadas en reglas carecen de robustez, mientras que las recompensas basadas en modelos son vulnerables al "reward hacking" (manipulación de recompensas). Para abordar estos problemas, proponemos Cooper (Co-optimización del Modelo de Política y el Modelo de Recompensa), un marco de RL que optimiza conjuntamente tanto el modelo de política como el modelo de recompensa. Cooper aprovecha la alta precisión de las recompensas basadas en reglas al identificar respuestas correctas, y construye y selecciona dinámicamente pares de muestras positivas-negativas para continuar entrenando el modelo de recompensa. Este diseño mejora la robustez y mitiga el riesgo de "reward hacking". Para respaldar aún más a Cooper, introducimos una estrategia de anotación híbrida que genera datos de entrenamiento para el modelo de recompensa de manera eficiente y precisa. También proponemos un paradigma de modelado de recompensas basado en referencias, donde el modelo de recompensa toma una respuesta de referencia como entrada. Basándonos en este diseño, entrenamos un modelo de recompensa llamado VerifyRM, que logra una mayor precisión en VerifyBench en comparación con otros modelos del mismo tamaño. Realizamos aprendizaje por refuerzo utilizando tanto VerifyRM como Cooper. Nuestros experimentos muestran que Cooper no solo alivia el "reward hacking", sino que también mejora el rendimiento de RL de extremo a extremo, por ejemplo, logrando una ganancia del 0.54% en precisión promedio en Qwen2.5-1.5B-Instruct. Nuestros hallazgos demuestran que la actualización dinámica del modelo de recompensa es una forma efectiva de combatir el "reward hacking", proporcionando una referencia para integrar mejor los modelos de recompensa en RL.
English
Large language models (LLMs) have demonstrated remarkable performance in
reasoning tasks, where reinforcement learning (RL) serves as a key algorithm
for enhancing their reasoning capabilities. Currently, there are two mainstream
reward paradigms: model-based rewards and rule-based rewards. However, both
approaches suffer from limitations: rule-based rewards lack robustness, while
model-based rewards are vulnerable to reward hacking. To address these issues,
we propose Cooper(Co-optimizing Policy Model and Reward Model), a RL framework
that jointly optimizes both the policy model and the reward model. Cooper
leverages the high precision of rule-based rewards when identifying correct
responses, and dynamically constructs and selects positive-negative sample
pairs for continued training the reward model. This design enhances robustness
and mitigates the risk of reward hacking. To further support Cooper, we
introduce a hybrid annotation strategy that efficiently and accurately
generates training data for the reward model. We also propose a reference-based
reward modeling paradigm, where the reward model takes a reference answer as
input. Based on this design, we train a reward model named VerifyRM, which
achieves higher accuracy on VerifyBench compared to other models of the same
size. We conduct reinforcement learning using both VerifyRM and Cooper. Our
experiments show that Cooper not only alleviates reward hacking but also
improves end-to-end RL performance, for instance, achieving a 0.54% gain in
average accuracy on Qwen2.5-1.5B-Instruct. Our findings demonstrate that
dynamically updating reward model is an effective way to combat reward hacking,
providing a reference for better integrating reward models into RL.