ChatPaper.aiChatPaper

BaseReward : Une référence solide pour les modèles de récompense multimodale

BaseReward: A Strong Baseline for Multimodal Reward Model

September 19, 2025
papers.authors: Yi-Fan Zhang, Haihua Yang, Huanyu Zhang, Yang Shi, Zezhou Chen, Haochen Tian, Chaoyou Fu, Haotian Wang, Kai Wu, Bo Cui, Xu Wang, Jianfei Pan, Haotian Wang, Zhang Zhang, Liang Wang
cs.AI

papers.abstract

L'avancée rapide des Modèles de Langage Multimodaux de Grande Tchelle (MLLMs) a rendu leur alignement avec les préférences humaines un défi critique. Les Modèles de Récompense (RMs) constituent une technologie clé pour atteindre cet objectif, mais un guide systématique pour la construction de Modèles de Récompense Multimodaux (MRMs) de pointe fait actuellement défaut, tant dans le milieu académique que dans l'industrie. À travers une analyse expérimentale exhaustive, cet article vise à fournir une « recette » claire pour la construction de MRMs performants. Nous examinons systématiquement chaque composant crucial du pipeline de développement des MRMs, incluant les paradigmes de modélisation de récompense (par exemple, Naive-RM, Critic-based RM et Generative RM), l'architecture de la tête de récompense, les stratégies d'entraînement, la curation des données (couvrant plus de dix ensembles de données multimodales et textuelles de préférence), le modèle de base et l'échelle du modèle, ainsi que les méthodes d'ensemble. Sur la base de ces insights expérimentaux, nous introduisons BaseReward, une base de référence puissante et efficace pour la modélisation de récompense multimodale. BaseReward adopte une architecture simple mais efficace, construite sur un modèle de base {Qwen2.5-VL}, dotée d'une tête de récompense optimisée à deux couches, et entraînée sur un mélange soigneusement sélectionné de données de préférence multimodales et textuelles de haute qualité. Nos résultats montrent que BaseReward établit un nouveau SOTA sur les principaux benchmarks tels que MM-RLHF-Reward Bench, VL-Reward Bench et Multimodal Reward Bench, surpassant les modèles précédents. De plus, pour valider son utilité pratique au-delà des benchmarks statiques, nous intégrons BaseReward dans un pipeline d'apprentissage par renforcement en conditions réelles, améliorant avec succès les performances d'un MLLM sur diverses tâches de perception, de raisonnement et de conversation. Ce travail ne fournit pas seulement un MRM de premier ordre, mais, plus important encore, offre à la communauté un guide clair et empiriquement étayé pour le développement de modèles de récompense robustes pour la prochaine génération de MLLMs.
English
The rapid advancement of Multimodal Large Language Models (MLLMs) has made aligning them with human preferences a critical challenge. Reward Models (RMs) are a core technology for achieving this goal, but a systematic guide for building state-of-the-art Multimodal Reward Models (MRMs) is currently lacking in both academia and industry. Through exhaustive experimental analysis, this paper aims to provide a clear ``recipe'' for constructing high-performance MRMs. We systematically investigate every crucial component in the MRM development pipeline, including reward modeling paradigms (e.g., Naive-RM, Critic-based RM, and Generative RM), reward head architecture, training strategies, data curation (covering over ten multimodal and text-only preference datasets), backbone model and model scale, and ensemble methods. Based on these experimental insights, we introduce BaseReward, a powerful and efficient baseline for multimodal reward modeling. BaseReward adopts a simple yet effective architecture, built upon a {Qwen2.5-VL} backbone, featuring an optimized two-layer reward head, and is trained on a carefully curated mixture of high-quality multimodal and text-only preference data. Our results show that BaseReward establishes a new SOTA on major benchmarks such as MM-RLHF-Reward Bench, VL-Reward Bench, and Multimodal Reward Bench, outperforming previous models. Furthermore, to validate its practical utility beyond static benchmarks, we integrate BaseReward into a real-world reinforcement learning pipeline, successfully enhancing an MLLM's performance across various perception, reasoning, and conversational tasks. This work not only delivers a top-tier MRM but, more importantly, provides the community with a clear, empirically-backed guide for developing robust reward models for the next generation of MLLMs.
PDF212September 22, 2025