ChatPaper.aiChatPaper

R1-Belohnung: Training multimodaler Belohnungsmodelle durch stabiles Reinforcement Learning

R1-Reward: Training Multimodal Reward Model Through Stable Reinforcement Learning

May 5, 2025
Autoren: Yi-Fan Zhang, Xingyu Lu, Xiao Hu, Chaoyou Fu, Bin Wen, Tianke Zhang, Changyi Liu, Kaiyu Jiang, Kaibing Chen, Kaiyu Tang, Haojie Ding, Jiankang Chen, Fan Yang, Zhang Zhang, Tingting Gao, Liang Wang
cs.AI

Zusammenfassung

Multimodale Belohnungsmodelle (MRMs) spielen eine entscheidende Rolle bei der Verbesserung der Leistung von Multimodalen Großen Sprachmodellen (MLLMs). Während sich die jüngsten Fortschritte hauptsächlich auf die Verbesserung der Modellstruktur und der Trainingsdaten von MRMs konzentriert haben, wurde die Effektivität von langfristigen Denkfähigkeiten für die Belohnungsmodellierung und deren Aktivierung in MRMs bisher nur begrenzt erforscht. In dieser Arbeit untersuchen wir, wie Reinforcement Learning (RL) zur Verbesserung der Belohnungsmodellierung eingesetzt werden kann. Konkret formulieren wir das Problem der Belohnungsmodellierung als eine regelbasierte RL-Aufgabe neu. Wir stellen jedoch fest, dass die direkte Anwendung bestehender RL-Algorithmen, wie Reinforce++, auf die Belohnungsmodellierung häufig zu Trainingsinstabilität oder sogar zum Zusammenbruch führt, was auf die inhärenten Grenzen dieser Algorithmen zurückzuführen ist. Um dieses Problem zu lösen, schlagen wir den StableReinforce-Algorithmus vor, der die Trainingsverlustfunktion, die Strategie zur Schätzung des Vorteils und die Belohnungsgestaltung bestehender RL-Methoden verfeinert. Diese Verfeinerungen führen zu stabileren Trainingsdynamiken und einer überlegenen Leistung. Um das Training von MRMs zu erleichtern, sammeln wir 200.000 Präferenzdaten aus verschiedenen Datensätzen. Unser Belohnungsmodell, R1-Reward, das mit dem StableReinforce-Algorithmus auf diesem Datensatz trainiert wurde, verbessert die Leistung bei Benchmarks für multimodale Belohnungsmodellierung erheblich. Im Vergleich zu früheren State-of-the-Art-Modellen erzielt R1-Reward eine Verbesserung von 8,4 % auf dem VL Reward-Bench und eine Verbesserung von 14,3 % auf dem Multimodal Reward Bench. Darüber hinaus wird die Leistung von R1-Reward mit mehr Inferenzrechenleistung weiter gesteigert, was das Potenzial von RL-Algorithmen zur Optimierung von MRMs unterstreicht.
English
Multimodal Reward Models (MRMs) play a crucial role in enhancing the performance of Multimodal Large Language Models (MLLMs). While recent advancements have primarily focused on improving the model structure and training data of MRMs, there has been limited exploration into the effectiveness of long-term reasoning capabilities for reward modeling and how to activate these capabilities in MRMs. In this paper, we explore how Reinforcement Learning (RL) can be used to improve reward modeling. Specifically, we reformulate the reward modeling problem as a rule-based RL task. However, we observe that directly applying existing RL algorithms, such as Reinforce++, to reward modeling often leads to training instability or even collapse due to the inherent limitations of these algorithms. To address this issue, we propose the StableReinforce algorithm, which refines the training loss, advantage estimation strategy, and reward design of existing RL methods. These refinements result in more stable training dynamics and superior performance. To facilitate MRM training, we collect 200K preference data from diverse datasets. Our reward model, R1-Reward, trained using the StableReinforce algorithm on this dataset, significantly improves performance on multimodal reward modeling benchmarks. Compared to previous SOTA models, R1-Reward achieves a 8.4% improvement on the VL Reward-Bench and a 14.3% improvement on the Multimodal Reward Bench. Moreover, with more inference compute, R1-Reward's performance is further enhanced, highlighting the potential of RL algorithms in optimizing MRMs.

Summary

AI-Generated Summary

PDF161May 6, 2025