R1-Recompensa: Treinando Modelos de Recompensa Multimodal por Meio de Aprendizado por Reforço Estável
R1-Reward: Training Multimodal Reward Model Through Stable Reinforcement Learning
May 5, 2025
Autores: Yi-Fan Zhang, Xingyu Lu, Xiao Hu, Chaoyou Fu, Bin Wen, Tianke Zhang, Changyi Liu, Kaiyu Jiang, Kaibing Chen, Kaiyu Tang, Haojie Ding, Jiankang Chen, Fan Yang, Zhang Zhang, Tingting Gao, Liang Wang
cs.AI
Resumo
Os Modelos de Recompensa Multimodal (MRMs) desempenham um papel crucial na melhoria do desempenho dos Modelos de Linguagem de Grande Escala Multimodal (MLLMs). Embora os avanços recentes tenham se concentrado principalmente em melhorar a estrutura do modelo e os dados de treinamento dos MRMs, houve uma exploração limitada da eficácia das capacidades de raciocínio de longo prazo para a modelagem de recompensas e de como ativar essas capacidades nos MRMs. Neste artigo, exploramos como o Aprendizado por Reforço (RL) pode ser usado para melhorar a modelagem de recompensas. Especificamente, reformulamos o problema de modelagem de recompensas como uma tarefa de RL baseada em regras. No entanto, observamos que a aplicação direta de algoritmos de RL existentes, como o Reinforce++, à modelagem de recompensas frequentemente leva a instabilidade no treinamento ou até mesmo ao colapso, devido às limitações inerentes desses algoritmos. Para resolver esse problema, propomos o algoritmo StableReinforce, que refina a função de perda de treinamento, a estratégia de estimativa de vantagem e o design de recompensa dos métodos de RL existentes. Esses refinamentos resultam em dinâmicas de treinamento mais estáveis e desempenho superior. Para facilitar o treinamento dos MRMs, coletamos 200 mil dados de preferência de diversos conjuntos de dados. Nosso modelo de recompensa, R1-Reward, treinado usando o algoritmo StableReinforce nesse conjunto de dados, melhora significativamente o desempenho em benchmarks de modelagem de recompensas multimodais. Em comparação com os modelos SOTA anteriores, o R1-Reward alcança uma melhoria de 8,4% no VL Reward-Bench e de 14,3% no Multimodal Reward Bench. Além disso, com mais recursos de inferência, o desempenho do R1-Reward é ainda mais aprimorado, destacando o potencial dos algoritmos de RL na otimização dos MRMs.
English
Multimodal Reward Models (MRMs) play a crucial role in enhancing the
performance of Multimodal Large Language Models (MLLMs). While recent
advancements have primarily focused on improving the model structure and
training data of MRMs, there has been limited exploration into the
effectiveness of long-term reasoning capabilities for reward modeling and how
to activate these capabilities in MRMs. In this paper, we explore how
Reinforcement Learning (RL) can be used to improve reward modeling.
Specifically, we reformulate the reward modeling problem as a rule-based RL
task. However, we observe that directly applying existing RL algorithms, such
as Reinforce++, to reward modeling often leads to training instability or even
collapse due to the inherent limitations of these algorithms. To address this
issue, we propose the StableReinforce algorithm, which refines the training
loss, advantage estimation strategy, and reward design of existing RL methods.
These refinements result in more stable training dynamics and superior
performance. To facilitate MRM training, we collect 200K preference data from
diverse datasets. Our reward model, R1-Reward, trained using the
StableReinforce algorithm on this dataset, significantly improves performance
on multimodal reward modeling benchmarks. Compared to previous SOTA models,
R1-Reward achieves a 8.4% improvement on the VL Reward-Bench and a 14.3%
improvement on the Multimodal Reward Bench. Moreover, with more inference
compute, R1-Reward's performance is further enhanced, highlighting the
potential of RL algorithms in optimizing MRMs.