R1-Belohnung: Training multimodaler Belohnungsmodelle durch stabiles Reinforcement Learning
R1-Reward: Training Multimodal Reward Model Through Stable Reinforcement Learning
May 5, 2025
Autoren: Yi-Fan Zhang, Xingyu Lu, Xiao Hu, Chaoyou Fu, Bin Wen, Tianke Zhang, Changyi Liu, Kaiyu Jiang, Kaibing Chen, Kaiyu Tang, Haojie Ding, Jiankang Chen, Fan Yang, Zhang Zhang, Tingting Gao, Liang Wang
cs.AI
Zusammenfassung
Multimodale Belohnungsmodelle (MRMs) spielen eine entscheidende Rolle bei der Verbesserung der Leistung von Multimodalen Großen Sprachmodellen (MLLMs). Während sich die jüngsten Fortschritte hauptsächlich auf die Verbesserung der Modellstruktur und der Trainingsdaten von MRMs konzentriert haben, wurde die Effektivität von langfristigen Denkfähigkeiten für die Belohnungsmodellierung und deren Aktivierung in MRMs bisher nur begrenzt erforscht. In dieser Arbeit untersuchen wir, wie Reinforcement Learning (RL) zur Verbesserung der Belohnungsmodellierung eingesetzt werden kann. Konkret formulieren wir das Problem der Belohnungsmodellierung als eine regelbasierte RL-Aufgabe neu. Wir stellen jedoch fest, dass die direkte Anwendung bestehender RL-Algorithmen, wie Reinforce++, auf die Belohnungsmodellierung häufig zu Trainingsinstabilität oder sogar zum Zusammenbruch führt, was auf die inhärenten Grenzen dieser Algorithmen zurückzuführen ist. Um dieses Problem zu lösen, schlagen wir den StableReinforce-Algorithmus vor, der die Trainingsverlustfunktion, die Strategie zur Schätzung des Vorteils und die Belohnungsgestaltung bestehender RL-Methoden verfeinert. Diese Verfeinerungen führen zu stabileren Trainingsdynamiken und einer überlegenen Leistung. Um das Training von MRMs zu erleichtern, sammeln wir 200.000 Präferenzdaten aus verschiedenen Datensätzen. Unser Belohnungsmodell, R1-Reward, das mit dem StableReinforce-Algorithmus auf diesem Datensatz trainiert wurde, verbessert die Leistung bei Benchmarks für multimodale Belohnungsmodellierung erheblich. Im Vergleich zu früheren State-of-the-Art-Modellen erzielt R1-Reward eine Verbesserung von 8,4 % auf dem VL Reward-Bench und eine Verbesserung von 14,3 % auf dem Multimodal Reward Bench. Darüber hinaus wird die Leistung von R1-Reward mit mehr Inferenzrechenleistung weiter gesteigert, was das Potenzial von RL-Algorithmen zur Optimierung von MRMs unterstreicht.
English
Multimodal Reward Models (MRMs) play a crucial role in enhancing the
performance of Multimodal Large Language Models (MLLMs). While recent
advancements have primarily focused on improving the model structure and
training data of MRMs, there has been limited exploration into the
effectiveness of long-term reasoning capabilities for reward modeling and how
to activate these capabilities in MRMs. In this paper, we explore how
Reinforcement Learning (RL) can be used to improve reward modeling.
Specifically, we reformulate the reward modeling problem as a rule-based RL
task. However, we observe that directly applying existing RL algorithms, such
as Reinforce++, to reward modeling often leads to training instability or even
collapse due to the inherent limitations of these algorithms. To address this
issue, we propose the StableReinforce algorithm, which refines the training
loss, advantage estimation strategy, and reward design of existing RL methods.
These refinements result in more stable training dynamics and superior
performance. To facilitate MRM training, we collect 200K preference data from
diverse datasets. Our reward model, R1-Reward, trained using the
StableReinforce algorithm on this dataset, significantly improves performance
on multimodal reward modeling benchmarks. Compared to previous SOTA models,
R1-Reward achieves a 8.4% improvement on the VL Reward-Bench and a 14.3%
improvement on the Multimodal Reward Bench. Moreover, with more inference
compute, R1-Reward's performance is further enhanced, highlighting the
potential of RL algorithms in optimizing MRMs.Summary
AI-Generated Summary