R1-Récompense : Entraînement d'un Modèle de Récompense Multimodal par Apprentissage par Renforcement Stable
R1-Reward: Training Multimodal Reward Model Through Stable Reinforcement Learning
May 5, 2025
Auteurs: Yi-Fan Zhang, Xingyu Lu, Xiao Hu, Chaoyou Fu, Bin Wen, Tianke Zhang, Changyi Liu, Kaiyu Jiang, Kaibing Chen, Kaiyu Tang, Haojie Ding, Jiankang Chen, Fan Yang, Zhang Zhang, Tingting Gao, Liang Wang
cs.AI
Résumé
Les Modèles de Récompense Multimodaux (MRMs) jouent un rôle crucial dans l'amélioration des performances des Modèles de Langage Multimodaux de Grande Taille (MLLMs). Bien que les avancées récentes se soient principalement concentrées sur l'amélioration de la structure des modèles et des données d'entraînement des MRMs, il y a eu peu d'exploration concernant l'efficacité des capacités de raisonnement à long terme pour la modélisation des récompenses et sur la manière d'activer ces capacités dans les MRMs. Dans cet article, nous explorons comment l'Apprentissage par Renforcement (RL) peut être utilisé pour améliorer la modélisation des récompenses. Plus précisément, nous reformulons le problème de modélisation des récompenses en une tâche de RL basée sur des règles. Cependant, nous observons que l'application directe des algorithmes de RL existants, tels que Reinforce++, à la modélisation des récompenses entraîne souvent une instabilité de l'entraînement, voire un effondrement, en raison des limitations inhérentes à ces algorithmes. Pour résoudre ce problème, nous proposons l'algorithme StableReinforce, qui affine la fonction de perte d'entraînement, la stratégie d'estimation de l'avantage et la conception des récompenses des méthodes de RL existantes. Ces améliorations aboutissent à une dynamique d'entraînement plus stable et à des performances supérieures. Pour faciliter l'entraînement des MRMs, nous collectons 200K données de préférence provenant de divers ensembles de données. Notre modèle de récompense, R1-Reward, entraîné à l'aide de l'algorithme StableReinforce sur cet ensemble de données, améliore significativement les performances sur les benchmarks de modélisation des récompenses multimodales. Par rapport aux modèles SOTA précédents, R1-Reward obtient une amélioration de 8,4% sur le VL Reward-Bench et de 14,3% sur le Multimodal Reward Bench. De plus, avec davantage de ressources de calcul pour l'inférence, les performances de R1-Reward sont encore améliorées, mettant en évidence le potentiel des algorithmes de RL dans l'optimisation des MRMs.
English
Multimodal Reward Models (MRMs) play a crucial role in enhancing the
performance of Multimodal Large Language Models (MLLMs). While recent
advancements have primarily focused on improving the model structure and
training data of MRMs, there has been limited exploration into the
effectiveness of long-term reasoning capabilities for reward modeling and how
to activate these capabilities in MRMs. In this paper, we explore how
Reinforcement Learning (RL) can be used to improve reward modeling.
Specifically, we reformulate the reward modeling problem as a rule-based RL
task. However, we observe that directly applying existing RL algorithms, such
as Reinforce++, to reward modeling often leads to training instability or even
collapse due to the inherent limitations of these algorithms. To address this
issue, we propose the StableReinforce algorithm, which refines the training
loss, advantage estimation strategy, and reward design of existing RL methods.
These refinements result in more stable training dynamics and superior
performance. To facilitate MRM training, we collect 200K preference data from
diverse datasets. Our reward model, R1-Reward, trained using the
StableReinforce algorithm on this dataset, significantly improves performance
on multimodal reward modeling benchmarks. Compared to previous SOTA models,
R1-Reward achieves a 8.4% improvement on the VL Reward-Bench and a 14.3%
improvement on the Multimodal Reward Bench. Moreover, with more inference
compute, R1-Reward's performance is further enhanced, highlighting the
potential of RL algorithms in optimizing MRMs.Summary
AI-Generated Summary