BaseReward: Uma Linha de Base Forte para Modelos de Recompensa Multimodal
BaseReward: A Strong Baseline for Multimodal Reward Model
September 19, 2025
Autores: Yi-Fan Zhang, Haihua Yang, Huanyu Zhang, Yang Shi, Zezhou Chen, Haochen Tian, Chaoyou Fu, Haotian Wang, Kai Wu, Bo Cui, Xu Wang, Jianfei Pan, Haotian Wang, Zhang Zhang, Liang Wang
cs.AI
Resumo
O rápido avanço dos Modelos de Linguagem Multimodais de Grande Escala (MLLMs) tornou o alinhamento desses modelos com as preferências humanas um desafio crítico. Modelos de Recompensa (RMs) são uma tecnologia central para alcançar esse objetivo, mas atualmente falta tanto na academia quanto na indústria um guia sistemático para a construção de Modelos de Recompensa Multimodais (MRMs) de última geração. Por meio de uma análise experimental exaustiva, este artigo visa fornecer uma "receita" clara para a construção de MRMs de alto desempenho. Investigamos sistematicamente cada componente crucial no pipeline de desenvolvimento de MRMs, incluindo paradigmas de modelagem de recompensa (por exemplo, Naive-RM, Critic-based RM e Generative RM), arquitetura do cabeçalho de recompensa, estratégias de treinamento, curadoria de dados (abrangendo mais de dez conjuntos de dados de preferência multimodal e apenas texto), modelo base e escala do modelo, além de métodos de ensemble.
Com base nessas análises experimentais, introduzimos o BaseReward, uma linha de base poderosa e eficiente para modelagem de recompensa multimodal. O BaseReward adota uma arquitetura simples, porém eficaz, construída sobre um modelo base {Qwen2.5-VL}, com um cabeçalho de recompensa otimizado de duas camadas, e é treinado em uma mistura cuidadosamente curada de dados de preferência multimodal e apenas texto de alta qualidade. Nossos resultados mostram que o BaseReward estabelece um novo estado da arte (SOTA) em benchmarks importantes, como MM-RLHF-Reward Bench, VL-Reward Bench e Multimodal Reward Bench, superando modelos anteriores. Além disso, para validar sua utilidade prática além de benchmarks estáticos, integramos o BaseReward em um pipeline de aprendizado por reforço do mundo real, melhorando com sucesso o desempenho de um MLLM em diversas tarefas de percepção, raciocínio e conversação. Este trabalho não apenas entrega um MRM de alto nível, mas, mais importante, fornece à comunidade um guia claro e empiricamente embasado para o desenvolvimento de modelos de recompensa robustos para a próxima geração de MLLMs.
English
The rapid advancement of Multimodal Large Language Models (MLLMs) has made
aligning them with human preferences a critical challenge. Reward Models (RMs)
are a core technology for achieving this goal, but a systematic guide for
building state-of-the-art Multimodal Reward Models (MRMs) is currently lacking
in both academia and industry. Through exhaustive experimental analysis, this
paper aims to provide a clear ``recipe'' for constructing high-performance
MRMs. We systematically investigate every crucial component in the MRM
development pipeline, including reward modeling paradigms (e.g.,
Naive-RM, Critic-based RM, and Generative RM), reward head
architecture, training strategies, data curation (covering
over ten multimodal and text-only preference datasets), backbone model
and model scale, and ensemble methods.
Based on these experimental insights, we introduce BaseReward, a
powerful and efficient baseline for multimodal reward modeling. BaseReward
adopts a simple yet effective architecture, built upon a {Qwen2.5-VL} backbone,
featuring an optimized two-layer reward head, and is trained on a carefully
curated mixture of high-quality multimodal and text-only preference data. Our
results show that BaseReward establishes a new SOTA on major benchmarks such as
MM-RLHF-Reward Bench, VL-Reward Bench, and Multimodal Reward Bench,
outperforming previous models. Furthermore, to validate its practical utility
beyond static benchmarks, we integrate BaseReward into a real-world
reinforcement learning pipeline, successfully enhancing an MLLM's performance
across various perception, reasoning, and conversational tasks. This work not
only delivers a top-tier MRM but, more importantly, provides the community with
a clear, empirically-backed guide for developing robust reward models for the
next generation of MLLMs.