BaseReward: Una Solida Baseline per Modelli di Ricompensa Multimodale

Abstract

Il rapido progresso dei Modelli Linguistici Multimodali di Grande Scala (MLLMs) ha reso l'allineamento con le preferenze umane una sfida critica. I Modelli di Ricompensa (RMs) rappresentano una tecnologia fondamentale per raggiungere questo obiettivo, ma attualmente manca una guida sistematica per la costruzione di Modelli di Ricompensa Multimodali (MRMs) all'avanguardia, sia in ambito accademico che industriale. Attraverso un'analisi sperimentale esaustiva, questo articolo mira a fornire una "ricetta" chiara per la costruzione di MRM ad alte prestazioni. Esaminiamo sistematicamente ogni componente cruciale della pipeline di sviluppo degli MRM, inclusi i paradigmi di modellazione della ricompensa (ad esempio, Naive-RM, Critic-based RM e Generative RM), l'architettura della testa di ricompensa, le strategie di addestramento, la cura dei dati (coprendo oltre dieci dataset di preferenze multimodali e solo testuali), il modello di base e la scala del modello, nonché i metodi di ensemble. Sulla base di queste intuizioni sperimentali, introduciamo BaseReward, una linea di base potente ed efficiente per la modellazione della ricompensa multimodale. BaseReward adotta un'architettura semplice ma efficace, costruita su un backbone {Qwen2.5-VL}, caratterizzata da una testa di ricompensa a due strati ottimizzata, ed è addestrata su una miscela accuratamente curata di dati di preferenza multimodali e solo testuali di alta qualità. I nostri risultati dimostrano che BaseReward stabilisce un nuovo stato dell'arte su benchmark principali come MM-RLHF-Reward Bench, VL-Reward Bench e Multimodal Reward Bench, superando i modelli precedenti. Inoltre, per validarne l'utilità pratica oltre i benchmark statici, integriamo BaseReward in una pipeline di apprendimento per rinforzo nel mondo reale, migliorando con successo le prestazioni di un MLLM in vari compiti di percezione, ragionamento e conversazione. Questo lavoro non solo fornisce un MRM di alto livello, ma, cosa ancora più importante, offre alla comunità una guida chiara e supportata empiricamente per lo sviluppo di modelli di ricompensa robusti per la prossima generazione di MLLMs.

English

The rapid advancement of Multimodal Large Language Models (MLLMs) has made aligning them with human preferences a critical challenge. Reward Models (RMs) are a core technology for achieving this goal, but a systematic guide for building state-of-the-art Multimodal Reward Models (MRMs) is currently lacking in both academia and industry. Through exhaustive experimental analysis, this paper aims to provide a clear ``recipe'' for constructing high-performance MRMs. We systematically investigate every crucial component in the MRM development pipeline, including reward modeling paradigms (e.g., Naive-RM, Critic-based RM, and Generative RM), reward head architecture, training strategies, data curation (covering over ten multimodal and text-only preference datasets), backbone model and model scale, and ensemble methods. Based on these experimental insights, we introduce BaseReward, a powerful and efficient baseline for multimodal reward modeling. BaseReward adopts a simple yet effective architecture, built upon a {Qwen2.5-VL} backbone, featuring an optimized two-layer reward head, and is trained on a carefully curated mixture of high-quality multimodal and text-only preference data. Our results show that BaseReward establishes a new SOTA on major benchmarks such as MM-RLHF-Reward Bench, VL-Reward Bench, and Multimodal Reward Bench, outperforming previous models. Furthermore, to validate its practical utility beyond static benchmarks, we integrate BaseReward into a real-world reinforcement learning pipeline, successfully enhancing an MLLM's performance across various perception, reasoning, and conversational tasks. This work not only delivers a top-tier MRM but, more importantly, provides the community with a clear, empirically-backed guide for developing robust reward models for the next generation of MLLMs.

BaseReward: Una Solida Baseline per Modelli di Ricompensa Multimodale

BaseReward: A Strong Baseline for Multimodal Reward Model

Abstract

Support