BaseReward: Una Solida Baseline per Modelli di Ricompensa Multimodale
BaseReward: A Strong Baseline for Multimodal Reward Model
September 19, 2025
Autori: Yi-Fan Zhang, Haihua Yang, Huanyu Zhang, Yang Shi, Zezhou Chen, Haochen Tian, Chaoyou Fu, Haotian Wang, Kai Wu, Bo Cui, Xu Wang, Jianfei Pan, Haotian Wang, Zhang Zhang, Liang Wang
cs.AI
Abstract
Il rapido progresso dei Modelli Linguistici Multimodali di Grande Scala (MLLMs) ha reso l'allineamento con le preferenze umane una sfida critica. I Modelli di Ricompensa (RMs) rappresentano una tecnologia fondamentale per raggiungere questo obiettivo, ma attualmente manca una guida sistematica per la costruzione di Modelli di Ricompensa Multimodali (MRMs) all'avanguardia, sia in ambito accademico che industriale. Attraverso un'analisi sperimentale esaustiva, questo articolo mira a fornire una "ricetta" chiara per la costruzione di MRM ad alte prestazioni. Esaminiamo sistematicamente ogni componente cruciale della pipeline di sviluppo degli MRM, inclusi i paradigmi di modellazione della ricompensa (ad esempio, Naive-RM, Critic-based RM e Generative RM), l'architettura della testa di ricompensa, le strategie di addestramento, la cura dei dati (coprendo oltre dieci dataset di preferenze multimodali e solo testuali), il modello di base e la scala del modello, nonché i metodi di ensemble.
Sulla base di queste intuizioni sperimentali, introduciamo BaseReward, una linea di base potente ed efficiente per la modellazione della ricompensa multimodale. BaseReward adotta un'architettura semplice ma efficace, costruita su un backbone {Qwen2.5-VL}, caratterizzata da una testa di ricompensa a due strati ottimizzata, ed è addestrata su una miscela accuratamente curata di dati di preferenza multimodali e solo testuali di alta qualità. I nostri risultati dimostrano che BaseReward stabilisce un nuovo stato dell'arte su benchmark principali come MM-RLHF-Reward Bench, VL-Reward Bench e Multimodal Reward Bench, superando i modelli precedenti. Inoltre, per validarne l'utilità pratica oltre i benchmark statici, integriamo BaseReward in una pipeline di apprendimento per rinforzo nel mondo reale, migliorando con successo le prestazioni di un MLLM in vari compiti di percezione, ragionamento e conversazione. Questo lavoro non solo fornisce un MRM di alto livello, ma, cosa ancora più importante, offre alla comunità una guida chiara e supportata empiricamente per lo sviluppo di modelli di ricompensa robusti per la prossima generazione di MLLMs.
English
The rapid advancement of Multimodal Large Language Models (MLLMs) has made
aligning them with human preferences a critical challenge. Reward Models (RMs)
are a core technology for achieving this goal, but a systematic guide for
building state-of-the-art Multimodal Reward Models (MRMs) is currently lacking
in both academia and industry. Through exhaustive experimental analysis, this
paper aims to provide a clear ``recipe'' for constructing high-performance
MRMs. We systematically investigate every crucial component in the MRM
development pipeline, including reward modeling paradigms (e.g.,
Naive-RM, Critic-based RM, and Generative RM), reward head
architecture, training strategies, data curation (covering
over ten multimodal and text-only preference datasets), backbone model
and model scale, and ensemble methods.
Based on these experimental insights, we introduce BaseReward, a
powerful and efficient baseline for multimodal reward modeling. BaseReward
adopts a simple yet effective architecture, built upon a {Qwen2.5-VL} backbone,
featuring an optimized two-layer reward head, and is trained on a carefully
curated mixture of high-quality multimodal and text-only preference data. Our
results show that BaseReward establishes a new SOTA on major benchmarks such as
MM-RLHF-Reward Bench, VL-Reward Bench, and Multimodal Reward Bench,
outperforming previous models. Furthermore, to validate its practical utility
beyond static benchmarks, we integrate BaseReward into a real-world
reinforcement learning pipeline, successfully enhancing an MLLM's performance
across various perception, reasoning, and conversational tasks. This work not
only delivers a top-tier MRM but, more importantly, provides the community with
a clear, empirically-backed guide for developing robust reward models for the
next generation of MLLMs.