R1-Reward: Обучение многомодальной модели вознаграждения с использованием стабильного обучения с подкреплением
R1-Reward: Training Multimodal Reward Model Through Stable Reinforcement Learning
May 5, 2025
Авторы: Yi-Fan Zhang, Xingyu Lu, Xiao Hu, Chaoyou Fu, Bin Wen, Tianke Zhang, Changyi Liu, Kaiyu Jiang, Kaibing Chen, Kaiyu Tang, Haojie Ding, Jiankang Chen, Fan Yang, Zhang Zhang, Tingting Gao, Liang Wang
cs.AI
Аннотация
Мультимодальные модели вознаграждения (MRMs) играют ключевую роль в повышении производительности мультимодальных больших языковых моделей (MLLMs). Хотя последние достижения в основном сосредоточены на улучшении структуры модели и данных обучения для MRMs, исследования эффективности долгосрочных способностей к рассуждению для моделирования вознаграждения и способов их активации в MRMs остаются ограниченными. В данной работе мы исследуем, как обучение с подкреплением (Reinforcement Learning, RL) может быть использовано для улучшения моделирования вознаграждения. В частности, мы переформулируем задачу моделирования вознаграждения как задачу RL на основе правил. Однако мы наблюдаем, что прямое применение существующих алгоритмов RL, таких как Reinforce++, к моделированию вознаграждения часто приводит к нестабильности обучения или даже к коллапсу из-за присущих этим алгоритмам ограничений. Для решения этой проблемы мы предлагаем алгоритм StableReinforce, который улучшает функцию потерь, стратегию оценки преимуществ и дизайн вознаграждения существующих методов RL. Эти улучшения приводят к более стабильной динамике обучения и превосходной производительности. Для облегчения обучения MRMs мы собираем 200 тыс. данных о предпочтениях из различных наборов данных. Наша модель вознаграждения R1-Reward, обученная с использованием алгоритма StableReinforce на этом наборе данных, значительно улучшает производительность на бенчмарках мультимодального моделирования вознаграждения. По сравнению с предыдущими моделями SOTA, R1-Reward достигает улучшения на 8,4% на VL Reward-Bench и на 14,3% на Multimodal Reward Bench. Более того, с увеличением вычислительных ресурсов для вывода производительность R1-Reward дополнительно улучшается, что подчеркивает потенциал алгоритмов RL в оптимизации MRMs.
English
Multimodal Reward Models (MRMs) play a crucial role in enhancing the
performance of Multimodal Large Language Models (MLLMs). While recent
advancements have primarily focused on improving the model structure and
training data of MRMs, there has been limited exploration into the
effectiveness of long-term reasoning capabilities for reward modeling and how
to activate these capabilities in MRMs. In this paper, we explore how
Reinforcement Learning (RL) can be used to improve reward modeling.
Specifically, we reformulate the reward modeling problem as a rule-based RL
task. However, we observe that directly applying existing RL algorithms, such
as Reinforce++, to reward modeling often leads to training instability or even
collapse due to the inherent limitations of these algorithms. To address this
issue, we propose the StableReinforce algorithm, which refines the training
loss, advantage estimation strategy, and reward design of existing RL methods.
These refinements result in more stable training dynamics and superior
performance. To facilitate MRM training, we collect 200K preference data from
diverse datasets. Our reward model, R1-Reward, trained using the
StableReinforce algorithm on this dataset, significantly improves performance
on multimodal reward modeling benchmarks. Compared to previous SOTA models,
R1-Reward achieves a 8.4% improvement on the VL Reward-Bench and a 14.3%
improvement on the Multimodal Reward Bench. Moreover, with more inference
compute, R1-Reward's performance is further enhanced, highlighting the
potential of RL algorithms in optimizing MRMs.Summary
AI-Generated Summary