R1-Récompense : Entraînement d'un Modèle de Récompense Multimodal par Apprentissage par Renforcement Stable

papers.abstract

Les Modèles de Récompense Multimodaux (MRMs) jouent un rôle crucial dans l'amélioration des performances des Modèles de Langage Multimodaux de Grande Taille (MLLMs). Bien que les avancées récentes se soient principalement concentrées sur l'amélioration de la structure des modèles et des données d'entraînement des MRMs, il y a eu peu d'exploration concernant l'efficacité des capacités de raisonnement à long terme pour la modélisation des récompenses et sur la manière d'activer ces capacités dans les MRMs. Dans cet article, nous explorons comment l'Apprentissage par Renforcement (RL) peut être utilisé pour améliorer la modélisation des récompenses. Plus précisément, nous reformulons le problème de modélisation des récompenses en une tâche de RL basée sur des règles. Cependant, nous observons que l'application directe des algorithmes de RL existants, tels que Reinforce++, à la modélisation des récompenses entraîne souvent une instabilité de l'entraînement, voire un effondrement, en raison des limitations inhérentes à ces algorithmes. Pour résoudre ce problème, nous proposons l'algorithme StableReinforce, qui affine la fonction de perte d'entraînement, la stratégie d'estimation de l'avantage et la conception des récompenses des méthodes de RL existantes. Ces améliorations aboutissent à une dynamique d'entraînement plus stable et à des performances supérieures. Pour faciliter l'entraînement des MRMs, nous collectons 200K données de préférence provenant de divers ensembles de données. Notre modèle de récompense, R1-Reward, entraîné à l'aide de l'algorithme StableReinforce sur cet ensemble de données, améliore significativement les performances sur les benchmarks de modélisation des récompenses multimodales. Par rapport aux modèles SOTA précédents, R1-Reward obtient une amélioration de 8,4% sur le VL Reward-Bench et de 14,3% sur le Multimodal Reward Bench. De plus, avec davantage de ressources de calcul pour l'inférence, les performances de R1-Reward sont encore améliorées, mettant en évidence le potentiel des algorithmes de RL dans l'optimisation des MRMs.

English

Multimodal Reward Models (MRMs) play a crucial role in enhancing the performance of Multimodal Large Language Models (MLLMs). While recent advancements have primarily focused on improving the model structure and training data of MRMs, there has been limited exploration into the effectiveness of long-term reasoning capabilities for reward modeling and how to activate these capabilities in MRMs. In this paper, we explore how Reinforcement Learning (RL) can be used to improve reward modeling. Specifically, we reformulate the reward modeling problem as a rule-based RL task. However, we observe that directly applying existing RL algorithms, such as Reinforce++, to reward modeling often leads to training instability or even collapse due to the inherent limitations of these algorithms. To address this issue, we propose the StableReinforce algorithm, which refines the training loss, advantage estimation strategy, and reward design of existing RL methods. These refinements result in more stable training dynamics and superior performance. To facilitate MRM training, we collect 200K preference data from diverse datasets. Our reward model, R1-Reward, trained using the StableReinforce algorithm on this dataset, significantly improves performance on multimodal reward modeling benchmarks. Compared to previous SOTA models, R1-Reward achieves a 8.4% improvement on the VL Reward-Bench and a 14.3% improvement on the Multimodal Reward Bench. Moreover, with more inference compute, R1-Reward's performance is further enhanced, highlighting the potential of RL algorithms in optimizing MRMs.

R1-Récompense : Entraînement d'un Modèle de Récompense Multimodal par Apprentissage par Renforcement Stable

R1-Reward: Training Multimodal Reward Model Through Stable Reinforcement Learning

papers.abstract

Support