R1-Beloning: Training van een Multimodaal Beloningsmodel via Stabiele Versterkingsleren
R1-Reward: Training Multimodal Reward Model Through Stable Reinforcement Learning
May 5, 2025
Auteurs: Yi-Fan Zhang, Xingyu Lu, Xiao Hu, Chaoyou Fu, Bin Wen, Tianke Zhang, Changyi Liu, Kaiyu Jiang, Kaibing Chen, Kaiyu Tang, Haojie Ding, Jiankang Chen, Fan Yang, Zhang Zhang, Tingting Gao, Liang Wang
cs.AI
Samenvatting
Multimodale Beloningsmodellen (MRMs) spelen een cruciale rol bij het verbeteren van de prestaties van Multimodale Grote Taalmodellen (MLLMs). Hoewel recente vooruitgang zich voornamelijk heeft gericht op het verbeteren van de modelstructuur en trainingsdata van MRMs, is er beperkt onderzoek gedaan naar de effectiviteit van langetermijnredeneervaardigheden voor beloningsmodellering en hoe deze vaardigheden in MRMs geactiveerd kunnen worden. In dit artikel onderzoeken we hoe Reinforcement Learning (RL) kan worden gebruikt om beloningsmodellering te verbeteren. Specifiek herformuleren we het beloningsmodelleringsprobleem als een op regels gebaseerde RL-taak. We merken echter op dat het direct toepassen van bestaande RL-algoritmen, zoals Reinforce++, op beloningsmodellering vaak leidt tot trainingsinstabiliteit of zelfs instorting vanwege de inherente beperkingen van deze algoritmen. Om dit probleem aan te pakken, stellen we het StableReinforce-algoritme voor, dat de trainingsverliesfunctie, de strategie voor het schatten van voordelen en het beloningsontwerp van bestaande RL-methoden verfijnt. Deze verfijningen resulteren in stabielere trainingsdynamiek en superieure prestaties. Om de training van MRMs te vergemakkelijken, verzamelen we 200K voorkeursdata uit diverse datasets. Ons beloningsmodel, R1-Reward, getraind met het StableReinforce-algoritme op deze dataset, verbetert de prestaties aanzienlijk op benchmarks voor multimodale beloningsmodellering. In vergelijking met eerdere SOTA-modellen behaalt R1-Reward een verbetering van 8,4% op de VL Reward-Bench en een verbetering van 14,3% op de Multimodale Beloningsbench. Bovendien wordt de prestaties van R1-Reward verder verbeterd met meer rekencapaciteit tijdens inferentie, wat het potentieel van RL-algoritmen bij het optimaliseren van MRMs benadrukt.
English
Multimodal Reward Models (MRMs) play a crucial role in enhancing the
performance of Multimodal Large Language Models (MLLMs). While recent
advancements have primarily focused on improving the model structure and
training data of MRMs, there has been limited exploration into the
effectiveness of long-term reasoning capabilities for reward modeling and how
to activate these capabilities in MRMs. In this paper, we explore how
Reinforcement Learning (RL) can be used to improve reward modeling.
Specifically, we reformulate the reward modeling problem as a rule-based RL
task. However, we observe that directly applying existing RL algorithms, such
as Reinforce++, to reward modeling often leads to training instability or even
collapse due to the inherent limitations of these algorithms. To address this
issue, we propose the StableReinforce algorithm, which refines the training
loss, advantage estimation strategy, and reward design of existing RL methods.
These refinements result in more stable training dynamics and superior
performance. To facilitate MRM training, we collect 200K preference data from
diverse datasets. Our reward model, R1-Reward, trained using the
StableReinforce algorithm on this dataset, significantly improves performance
on multimodal reward modeling benchmarks. Compared to previous SOTA models,
R1-Reward achieves a 8.4% improvement on the VL Reward-Bench and a 14.3%
improvement on the Multimodal Reward Bench. Moreover, with more inference
compute, R1-Reward's performance is further enhanced, highlighting the
potential of RL algorithms in optimizing MRMs.