ChatPaper.aiChatPaper

R1-Recompensa: Treinando Modelos de Recompensa Multimodal por Meio de Aprendizado por Reforço Estável

R1-Reward: Training Multimodal Reward Model Through Stable Reinforcement Learning

May 5, 2025
Autores: Yi-Fan Zhang, Xingyu Lu, Xiao Hu, Chaoyou Fu, Bin Wen, Tianke Zhang, Changyi Liu, Kaiyu Jiang, Kaibing Chen, Kaiyu Tang, Haojie Ding, Jiankang Chen, Fan Yang, Zhang Zhang, Tingting Gao, Liang Wang
cs.AI

Resumo

Os Modelos de Recompensa Multimodal (MRMs) desempenham um papel crucial na melhoria do desempenho dos Modelos de Linguagem de Grande Escala Multimodal (MLLMs). Embora os avanços recentes tenham se concentrado principalmente em melhorar a estrutura do modelo e os dados de treinamento dos MRMs, houve uma exploração limitada da eficácia das capacidades de raciocínio de longo prazo para a modelagem de recompensas e de como ativar essas capacidades nos MRMs. Neste artigo, exploramos como o Aprendizado por Reforço (RL) pode ser usado para melhorar a modelagem de recompensas. Especificamente, reformulamos o problema de modelagem de recompensas como uma tarefa de RL baseada em regras. No entanto, observamos que a aplicação direta de algoritmos de RL existentes, como o Reinforce++, à modelagem de recompensas frequentemente leva a instabilidade no treinamento ou até mesmo ao colapso, devido às limitações inerentes desses algoritmos. Para resolver esse problema, propomos o algoritmo StableReinforce, que refina a função de perda de treinamento, a estratégia de estimativa de vantagem e o design de recompensa dos métodos de RL existentes. Esses refinamentos resultam em dinâmicas de treinamento mais estáveis e desempenho superior. Para facilitar o treinamento dos MRMs, coletamos 200 mil dados de preferência de diversos conjuntos de dados. Nosso modelo de recompensa, R1-Reward, treinado usando o algoritmo StableReinforce nesse conjunto de dados, melhora significativamente o desempenho em benchmarks de modelagem de recompensas multimodais. Em comparação com os modelos SOTA anteriores, o R1-Reward alcança uma melhoria de 8,4% no VL Reward-Bench e de 14,3% no Multimodal Reward Bench. Além disso, com mais recursos de inferência, o desempenho do R1-Reward é ainda mais aprimorado, destacando o potencial dos algoritmos de RL na otimização dos MRMs.
English
Multimodal Reward Models (MRMs) play a crucial role in enhancing the performance of Multimodal Large Language Models (MLLMs). While recent advancements have primarily focused on improving the model structure and training data of MRMs, there has been limited exploration into the effectiveness of long-term reasoning capabilities for reward modeling and how to activate these capabilities in MRMs. In this paper, we explore how Reinforcement Learning (RL) can be used to improve reward modeling. Specifically, we reformulate the reward modeling problem as a rule-based RL task. However, we observe that directly applying existing RL algorithms, such as Reinforce++, to reward modeling often leads to training instability or even collapse due to the inherent limitations of these algorithms. To address this issue, we propose the StableReinforce algorithm, which refines the training loss, advantage estimation strategy, and reward design of existing RL methods. These refinements result in more stable training dynamics and superior performance. To facilitate MRM training, we collect 200K preference data from diverse datasets. Our reward model, R1-Reward, trained using the StableReinforce algorithm on this dataset, significantly improves performance on multimodal reward modeling benchmarks. Compared to previous SOTA models, R1-Reward achieves a 8.4% improvement on the VL Reward-Bench and a 14.3% improvement on the Multimodal Reward Bench. Moreover, with more inference compute, R1-Reward's performance is further enhanced, highlighting the potential of RL algorithms in optimizing MRMs.
PDF291May 6, 2025