R1-Reward: Обучение многомодальной модели вознаграждения с использованием стабильного обучения с подкреплением

Аннотация

Мультимодальные модели вознаграждения (MRMs) играют ключевую роль в повышении производительности мультимодальных больших языковых моделей (MLLMs). Хотя последние достижения в основном сосредоточены на улучшении структуры модели и данных обучения для MRMs, исследования эффективности долгосрочных способностей к рассуждению для моделирования вознаграждения и способов их активации в MRMs остаются ограниченными. В данной работе мы исследуем, как обучение с подкреплением (Reinforcement Learning, RL) может быть использовано для улучшения моделирования вознаграждения. В частности, мы переформулируем задачу моделирования вознаграждения как задачу RL на основе правил. Однако мы наблюдаем, что прямое применение существующих алгоритмов RL, таких как Reinforce++, к моделированию вознаграждения часто приводит к нестабильности обучения или даже к коллапсу из-за присущих этим алгоритмам ограничений. Для решения этой проблемы мы предлагаем алгоритм StableReinforce, который улучшает функцию потерь, стратегию оценки преимуществ и дизайн вознаграждения существующих методов RL. Эти улучшения приводят к более стабильной динамике обучения и превосходной производительности. Для облегчения обучения MRMs мы собираем 200 тыс. данных о предпочтениях из различных наборов данных. Наша модель вознаграждения R1-Reward, обученная с использованием алгоритма StableReinforce на этом наборе данных, значительно улучшает производительность на бенчмарках мультимодального моделирования вознаграждения. По сравнению с предыдущими моделями SOTA, R1-Reward достигает улучшения на 8,4% на VL Reward-Bench и на 14,3% на Multimodal Reward Bench. Более того, с увеличением вычислительных ресурсов для вывода производительность R1-Reward дополнительно улучшается, что подчеркивает потенциал алгоритмов RL в оптимизации MRMs.

English

Multimodal Reward Models (MRMs) play a crucial role in enhancing the performance of Multimodal Large Language Models (MLLMs). While recent advancements have primarily focused on improving the model structure and training data of MRMs, there has been limited exploration into the effectiveness of long-term reasoning capabilities for reward modeling and how to activate these capabilities in MRMs. In this paper, we explore how Reinforcement Learning (RL) can be used to improve reward modeling. Specifically, we reformulate the reward modeling problem as a rule-based RL task. However, we observe that directly applying existing RL algorithms, such as Reinforce++, to reward modeling often leads to training instability or even collapse due to the inherent limitations of these algorithms. To address this issue, we propose the StableReinforce algorithm, which refines the training loss, advantage estimation strategy, and reward design of existing RL methods. These refinements result in more stable training dynamics and superior performance. To facilitate MRM training, we collect 200K preference data from diverse datasets. Our reward model, R1-Reward, trained using the StableReinforce algorithm on this dataset, significantly improves performance on multimodal reward modeling benchmarks. Compared to previous SOTA models, R1-Reward achieves a 8.4% improvement on the VL Reward-Bench and a 14.3% improvement on the Multimodal Reward Bench. Moreover, with more inference compute, R1-Reward's performance is further enhanced, highlighting the potential of RL algorithms in optimizing MRMs.

R1-Reward: Обучение многомодальной модели вознаграждения с использованием стабильного обучения с подкреплением

R1-Reward: Training Multimodal Reward Model Through Stable Reinforcement Learning

Аннотация

Support