ChatPaper.aiChatPaper

R1-Ricompensa: Addestramento di un Modello di Ricompensa Multimodale Attraverso Apprendimento per Rinforzo Stabile

R1-Reward: Training Multimodal Reward Model Through Stable Reinforcement Learning

May 5, 2025
Autori: Yi-Fan Zhang, Xingyu Lu, Xiao Hu, Chaoyou Fu, Bin Wen, Tianke Zhang, Changyi Liu, Kaiyu Jiang, Kaibing Chen, Kaiyu Tang, Haojie Ding, Jiankang Chen, Fan Yang, Zhang Zhang, Tingting Gao, Liang Wang
cs.AI

Abstract

I Modelli di Ricompensa Multimodali (MRM) svolgono un ruolo cruciale nel migliorare le prestazioni dei Modelli Linguistici Multimodali di Grandi Dimensioni (MLLM). Sebbene i recenti progressi si siano concentrati principalmente sul miglioramento della struttura del modello e dei dati di addestramento degli MRM, c'è stata un'esplorazione limitata sull'efficacia delle capacità di ragionamento a lungo termine per la modellazione della ricompensa e su come attivare queste capacità negli MRM. In questo articolo, esploriamo come l'Apprendimento per Rinforzo (RL) possa essere utilizzato per migliorare la modellazione della ricompensa. Nello specifico, riformuliamo il problema della modellazione della ricompensa come un compito RL basato su regole. Tuttavia, osserviamo che l'applicazione diretta di algoritmi RL esistenti, come Reinforce++, alla modellazione della ricompensa spesso porta a instabilità durante l'addestramento o addirittura al collasso a causa delle limitazioni intrinseche di questi algoritmi. Per affrontare questo problema, proponiamo l'algoritmo StableReinforce, che perfeziona la funzione di perdita dell'addestramento, la strategia di stima del vantaggio e il design della ricompensa dei metodi RL esistenti. Questi perfezionamenti risultano in dinamiche di addestramento più stabili e prestazioni superiori. Per facilitare l'addestramento degli MRM, raccogliamo 200K dati di preferenza da dataset diversi. Il nostro modello di ricompensa, R1-Reward, addestrato utilizzando l'algoritmo StableReinforce su questo dataset, migliora significativamente le prestazioni sui benchmark di modellazione della ricompensa multimodale. Rispetto ai precedenti modelli SOTA, R1-Reward ottiene un miglioramento dell'8,4% sul VL Reward-Bench e del 14,3% sul Multimodal Reward Bench. Inoltre, con maggiori risorse di inferenza, le prestazioni di R1-Reward sono ulteriormente migliorate, evidenziando il potenziale degli algoritmi RL nell'ottimizzazione degli MRM.
English
Multimodal Reward Models (MRMs) play a crucial role in enhancing the performance of Multimodal Large Language Models (MLLMs). While recent advancements have primarily focused on improving the model structure and training data of MRMs, there has been limited exploration into the effectiveness of long-term reasoning capabilities for reward modeling and how to activate these capabilities in MRMs. In this paper, we explore how Reinforcement Learning (RL) can be used to improve reward modeling. Specifically, we reformulate the reward modeling problem as a rule-based RL task. However, we observe that directly applying existing RL algorithms, such as Reinforce++, to reward modeling often leads to training instability or even collapse due to the inherent limitations of these algorithms. To address this issue, we propose the StableReinforce algorithm, which refines the training loss, advantage estimation strategy, and reward design of existing RL methods. These refinements result in more stable training dynamics and superior performance. To facilitate MRM training, we collect 200K preference data from diverse datasets. Our reward model, R1-Reward, trained using the StableReinforce algorithm on this dataset, significantly improves performance on multimodal reward modeling benchmarks. Compared to previous SOTA models, R1-Reward achieves a 8.4% improvement on the VL Reward-Bench and a 14.3% improvement on the Multimodal Reward Bench. Moreover, with more inference compute, R1-Reward's performance is further enhanced, highlighting the potential of RL algorithms in optimizing MRMs.
PDF271May 6, 2025