R1-Recompensa: Entrenamiento de Modelos de Recompensa Multimodal mediante Aprendizaje por Refuerzo Estable
R1-Reward: Training Multimodal Reward Model Through Stable Reinforcement Learning
May 5, 2025
Autores: Yi-Fan Zhang, Xingyu Lu, Xiao Hu, Chaoyou Fu, Bin Wen, Tianke Zhang, Changyi Liu, Kaiyu Jiang, Kaibing Chen, Kaiyu Tang, Haojie Ding, Jiankang Chen, Fan Yang, Zhang Zhang, Tingting Gao, Liang Wang
cs.AI
Resumen
Los Modelos de Recompensa Multimodal (MRMs) desempeñan un papel crucial en la mejora del rendimiento de los Modelos de Lenguaje Multimodal a Gran Escala (MLLMs). Si bien los avances recientes se han centrado principalmente en mejorar la estructura del modelo y los datos de entrenamiento de los MRMs, ha habido una exploración limitada sobre la efectividad de las capacidades de razonamiento a largo plazo para el modelado de recompensas y cómo activar estas capacidades en los MRMs. En este artículo, exploramos cómo el Aprendizaje por Refuerzo (RL) puede utilizarse para mejorar el modelado de recompensas. Específicamente, reformulamos el problema de modelado de recompensas como una tarea de RL basada en reglas. Sin embargo, observamos que la aplicación directa de algoritmos de RL existentes, como Reinforce++, al modelado de recompensas a menudo conduce a inestabilidad en el entrenamiento o incluso a colapsos debido a las limitaciones inherentes de estos algoritmos. Para abordar este problema, proponemos el algoritmo StableReinforce, que refina la función de pérdida del entrenamiento, la estrategia de estimación de ventajas y el diseño de recompensas de los métodos de RL existentes. Estos refinamientos resultan en dinámicas de entrenamiento más estables y un rendimiento superior. Para facilitar el entrenamiento de los MRMs, recopilamos 200K datos de preferencias de diversos conjuntos de datos. Nuestro modelo de recompensas, R1-Reward, entrenado utilizando el algoritmo StableReinforce en este conjunto de datos, mejora significativamente el rendimiento en los puntos de referencia de modelado de recompensas multimodal. En comparación con los modelos SOTA anteriores, R1-Reward logra una mejora del 8.4% en el VL Reward-Bench y un 14.3% en el Multimodal Reward Bench. Además, con más capacidad de inferencia, el rendimiento de R1-Reward se mejora aún más, destacando el potencial de los algoritmos de RL en la optimización de los MRMs.
English
Multimodal Reward Models (MRMs) play a crucial role in enhancing the
performance of Multimodal Large Language Models (MLLMs). While recent
advancements have primarily focused on improving the model structure and
training data of MRMs, there has been limited exploration into the
effectiveness of long-term reasoning capabilities for reward modeling and how
to activate these capabilities in MRMs. In this paper, we explore how
Reinforcement Learning (RL) can be used to improve reward modeling.
Specifically, we reformulate the reward modeling problem as a rule-based RL
task. However, we observe that directly applying existing RL algorithms, such
as Reinforce++, to reward modeling often leads to training instability or even
collapse due to the inherent limitations of these algorithms. To address this
issue, we propose the StableReinforce algorithm, which refines the training
loss, advantage estimation strategy, and reward design of existing RL methods.
These refinements result in more stable training dynamics and superior
performance. To facilitate MRM training, we collect 200K preference data from
diverse datasets. Our reward model, R1-Reward, trained using the
StableReinforce algorithm on this dataset, significantly improves performance
on multimodal reward modeling benchmarks. Compared to previous SOTA models,
R1-Reward achieves a 8.4% improvement on the VL Reward-Bench and a 14.3%
improvement on the Multimodal Reward Bench. Moreover, with more inference
compute, R1-Reward's performance is further enhanced, highlighting the
potential of RL algorithms in optimizing MRMs.Summary
AI-Generated Summary