BaseReward: Una Línea Base Sólida para Modelos de Recompensa Multimodal
BaseReward: A Strong Baseline for Multimodal Reward Model
September 19, 2025
Autores: Yi-Fan Zhang, Haihua Yang, Huanyu Zhang, Yang Shi, Zezhou Chen, Haochen Tian, Chaoyou Fu, Haotian Wang, Kai Wu, Bo Cui, Xu Wang, Jianfei Pan, Haotian Wang, Zhang Zhang, Liang Wang
cs.AI
Resumen
El rápido avance de los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) ha convertido la alineación de estos con las preferencias humanas en un desafío crítico. Los Modelos de Recompensa (RMs, por sus siglas en inglés) son una tecnología fundamental para lograr este objetivo, pero actualmente falta una guía sistemática para construir Modelos de Recompensa Multimodales (MRMs, por sus siglas en inglés) de vanguardia tanto en el ámbito académico como en la industria. A través de un exhaustivo análisis experimental, este artículo tiene como objetivo proporcionar una "receta" clara para construir MRMs de alto rendimiento. Investigamos sistemáticamente cada componente crucial en el proceso de desarrollo de MRMs, incluyendo los paradigmas de modelado de recompensas (por ejemplo, Naive-RM, Critic-based RM y Generative RM), la arquitectura de la cabeza de recompensa, las estrategias de entrenamiento, la curación de datos (abarcando más de diez conjuntos de datos de preferencias multimodales y solo de texto), el modelo base y la escala del modelo, así como los métodos de ensamblaje.
Basándonos en estas conclusiones experimentales, presentamos BaseReward, una línea base potente y eficiente para el modelado de recompensas multimodales. BaseReward adopta una arquitectura simple pero efectiva, construida sobre un modelo base {Qwen2.5-VL}, que incluye una cabeza de recompensa optimizada de dos capas y se entrena con una mezcla cuidadosamente seleccionada de datos de preferencias multimodales y solo de texto de alta calidad. Nuestros resultados muestran que BaseReward establece un nuevo estado del arte (SOTA, por sus siglas en inglés) en benchmarks importantes como MM-RLHF-Reward Bench, VL-Reward Bench y Multimodal Reward Bench, superando a modelos anteriores. Además, para validar su utilidad práctica más allá de los benchmarks estáticos, integramos BaseReward en un pipeline de aprendizaje por refuerzo del mundo real, mejorando con éxito el rendimiento de un MLLM en diversas tareas de percepción, razonamiento y conversación. Este trabajo no solo ofrece un MRM de primer nivel, sino que, más importante aún, proporciona a la comunidad una guía clara y respaldada empíricamente para desarrollar modelos de recompensa robustos para la próxima generación de MLLMs.
English
The rapid advancement of Multimodal Large Language Models (MLLMs) has made
aligning them with human preferences a critical challenge. Reward Models (RMs)
are a core technology for achieving this goal, but a systematic guide for
building state-of-the-art Multimodal Reward Models (MRMs) is currently lacking
in both academia and industry. Through exhaustive experimental analysis, this
paper aims to provide a clear ``recipe'' for constructing high-performance
MRMs. We systematically investigate every crucial component in the MRM
development pipeline, including reward modeling paradigms (e.g.,
Naive-RM, Critic-based RM, and Generative RM), reward head
architecture, training strategies, data curation (covering
over ten multimodal and text-only preference datasets), backbone model
and model scale, and ensemble methods.
Based on these experimental insights, we introduce BaseReward, a
powerful and efficient baseline for multimodal reward modeling. BaseReward
adopts a simple yet effective architecture, built upon a {Qwen2.5-VL} backbone,
featuring an optimized two-layer reward head, and is trained on a carefully
curated mixture of high-quality multimodal and text-only preference data. Our
results show that BaseReward establishes a new SOTA on major benchmarks such as
MM-RLHF-Reward Bench, VL-Reward Bench, and Multimodal Reward Bench,
outperforming previous models. Furthermore, to validate its practical utility
beyond static benchmarks, we integrate BaseReward into a real-world
reinforcement learning pipeline, successfully enhancing an MLLM's performance
across various perception, reasoning, and conversational tasks. This work not
only delivers a top-tier MRM but, more importantly, provides the community with
a clear, empirically-backed guide for developing robust reward models for the
next generation of MLLMs.