R1-Reward:安定した強化学習によるマルチモーダル報酬モデルのトレーニング
R1-Reward: Training Multimodal Reward Model Through Stable Reinforcement Learning
May 5, 2025
著者: Yi-Fan Zhang, Xingyu Lu, Xiao Hu, Chaoyou Fu, Bin Wen, Tianke Zhang, Changyi Liu, Kaiyu Jiang, Kaibing Chen, Kaiyu Tang, Haojie Ding, Jiankang Chen, Fan Yang, Zhang Zhang, Tingting Gao, Liang Wang
cs.AI
要旨
マルチモーダル報酬モデル(MRM)は、マルチモーダル大規模言語モデル(MLLM)の性能向上において重要な役割を果たします。近年の進歩は主にMRMのモデル構造とトレーニングデータの改善に焦点が当てられてきましたが、報酬モデリングにおける長期的推論能力の有効性や、これらの能力をMRMで活性化する方法については限定的な探求しか行われていません。本論文では、強化学習(RL)を用いて報酬モデリングを改善する方法を探ります。具体的には、報酬モデリング問題をルールベースのRLタスクとして再定式化します。しかし、Reinforce++などの既存のRLアルゴリズムを報酬モデリングに直接適用すると、これらのアルゴリズムの固有の制限により、トレーニングの不安定化や崩壊がしばしば引き起こされることが観察されます。この問題に対処するため、我々はStableReinforceアルゴリズムを提案します。このアルゴリズムは、既存のRL手法のトレーニング損失、アドバンテージ推定戦略、および報酬設計を改良し、より安定したトレーニングダイナミクスと優れた性能を実現します。MRMのトレーニングを促進するため、多様なデータセットから20万件の選好データを収集しました。このデータセット上でStableReinforceアルゴリズムを用いてトレーニングした我々の報酬モデル、R1-Rewardは、マルチモーダル報酬モデリングのベンチマークにおいて大幅な性能向上を示します。従来のSOTAモデルと比較して、R1-RewardはVL Reward-Benchで8.4%、Multimodal Reward Benchで14.3%の改善を達成しました。さらに、推論計算量を増やすことで、R1-Rewardの性能はさらに向上し、RLアルゴリズムがMRMを最適化する上で持つ潜在能力が明らかになりました。
English
Multimodal Reward Models (MRMs) play a crucial role in enhancing the
performance of Multimodal Large Language Models (MLLMs). While recent
advancements have primarily focused on improving the model structure and
training data of MRMs, there has been limited exploration into the
effectiveness of long-term reasoning capabilities for reward modeling and how
to activate these capabilities in MRMs. In this paper, we explore how
Reinforcement Learning (RL) can be used to improve reward modeling.
Specifically, we reformulate the reward modeling problem as a rule-based RL
task. However, we observe that directly applying existing RL algorithms, such
as Reinforce++, to reward modeling often leads to training instability or even
collapse due to the inherent limitations of these algorithms. To address this
issue, we propose the StableReinforce algorithm, which refines the training
loss, advantage estimation strategy, and reward design of existing RL methods.
These refinements result in more stable training dynamics and superior
performance. To facilitate MRM training, we collect 200K preference data from
diverse datasets. Our reward model, R1-Reward, trained using the
StableReinforce algorithm on this dataset, significantly improves performance
on multimodal reward modeling benchmarks. Compared to previous SOTA models,
R1-Reward achieves a 8.4% improvement on the VL Reward-Bench and a 14.3%
improvement on the Multimodal Reward Bench. Moreover, with more inference
compute, R1-Reward's performance is further enhanced, highlighting the
potential of RL algorithms in optimizing MRMs.Summary
AI-Generated Summary