R1-보상: 안정적 강화 학습을 통한 다중모달 보상 모델 훈련
R1-Reward: Training Multimodal Reward Model Through Stable Reinforcement Learning
May 5, 2025
저자: Yi-Fan Zhang, Xingyu Lu, Xiao Hu, Chaoyou Fu, Bin Wen, Tianke Zhang, Changyi Liu, Kaiyu Jiang, Kaibing Chen, Kaiyu Tang, Haojie Ding, Jiankang Chen, Fan Yang, Zhang Zhang, Tingting Gao, Liang Wang
cs.AI
초록
멀티모달 보상 모델(MRMs)은 멀티모달 대형 언어 모델(MLLMs)의 성능을 향상시키는 데 중요한 역할을 합니다. 최근의 발전은 주로 MRMs의 모델 구조와 훈련 데이터 개선에 초점을 맞추었으나, 보상 모델링을 위한 장기 추론 능력의 효과성과 이러한 능력을 MRMs에서 활성화하는 방법에 대한 탐구는 제한적이었습니다. 본 논문에서는 강화 학습(RL)을 활용하여 보상 모델링을 개선하는 방법을 탐구합니다. 구체적으로, 보상 모델링 문제를 규칙 기반 RL 작업으로 재구성합니다. 그러나 Reinforce++와 같은 기존 RL 알고리즘을 보상 모델링에 직접 적용할 경우, 이러한 알고리즘의 고유한 한계로 인해 훈련 불안정성 또는 심지어 붕괴가 발생하는 것을 관찰했습니다. 이 문제를 해결하기 위해, 우리는 StableReinforce 알고리즘을 제안합니다. 이 알고리즘은 기존 RL 방법의 훈련 손실, 이점 추정 전략, 보상 설계를 개선하여 더 안정적인 훈련 동역학과 우수한 성능을 달성합니다. MRM 훈련을 용이하게 하기 위해, 다양한 데이터셋에서 200K의 선호 데이터를 수집했습니다. 이 데이터셋에 StableReinforce 알고리즘을 사용하여 훈련된 우리의 보상 모델인 R1-Reward는 멀티모달 보상 모델링 벤치마크에서 성능을 크게 향상시켰습니다. 이전 SOTA 모델과 비교하여, R1-Reward는 VL Reward-Bench에서 8.4%, Multimodal Reward Bench에서 14.3%의 성능 향상을 달성했습니다. 또한, 더 많은 추론 계산을 통해 R1-Reward의 성능이 더욱 향상되어, RL 알고리즘이 MRMs를 최적화하는 데 있어 잠재력을 강조했습니다.
English
Multimodal Reward Models (MRMs) play a crucial role in enhancing the
performance of Multimodal Large Language Models (MLLMs). While recent
advancements have primarily focused on improving the model structure and
training data of MRMs, there has been limited exploration into the
effectiveness of long-term reasoning capabilities for reward modeling and how
to activate these capabilities in MRMs. In this paper, we explore how
Reinforcement Learning (RL) can be used to improve reward modeling.
Specifically, we reformulate the reward modeling problem as a rule-based RL
task. However, we observe that directly applying existing RL algorithms, such
as Reinforce++, to reward modeling often leads to training instability or even
collapse due to the inherent limitations of these algorithms. To address this
issue, we propose the StableReinforce algorithm, which refines the training
loss, advantage estimation strategy, and reward design of existing RL methods.
These refinements result in more stable training dynamics and superior
performance. To facilitate MRM training, we collect 200K preference data from
diverse datasets. Our reward model, R1-Reward, trained using the
StableReinforce algorithm on this dataset, significantly improves performance
on multimodal reward modeling benchmarks. Compared to previous SOTA models,
R1-Reward achieves a 8.4% improvement on the VL Reward-Bench and a 14.3%
improvement on the Multimodal Reward Bench. Moreover, with more inference
compute, R1-Reward's performance is further enhanced, highlighting the
potential of RL algorithms in optimizing MRMs.Summary
AI-Generated Summary