BaseReward: Een Sterke Basis voor Multimodale Beloningsmodellen
BaseReward: A Strong Baseline for Multimodal Reward Model
September 19, 2025
Auteurs: Yi-Fan Zhang, Haihua Yang, Huanyu Zhang, Yang Shi, Zezhou Chen, Haochen Tian, Chaoyou Fu, Haotian Wang, Kai Wu, Bo Cui, Xu Wang, Jianfei Pan, Haotian Wang, Zhang Zhang, Liang Wang
cs.AI
Samenvatting
De snelle vooruitgang van Multimodale Grote Taalmodellen (MLLMs) heeft het afstemmen ervan op menselijke voorkeuren tot een kritieke uitdaging gemaakt. Beloningsmodellen (RMs) vormen een kerntechnologie om dit doel te bereiken, maar een systematische handleiding voor het bouwen van state-of-the-art Multimodale Beloningsmodellen (MRMs) ontbreekt momenteel zowel in de academische wereld als in de industrie. Door middel van uitgebreide experimentele analyse beoogt dit artikel een duidelijk "recept" te bieden voor het construeren van hoogwaardige MRMs. We onderzoeken systematisch elk cruciaal onderdeel in de ontwikkelingspijplijn van MRMs, waaronder beloningsmodelparadigma's (bijv. Naive-RM, Critic-based RM en Generative RM), de architectuur van de beloningskop, trainingsstrategieën, datacuratie (waarbij meer dan tien multimodale en tekstuele voorkeursdatasets worden behandeld), het basismodel en modelschaal, en ensemblemethoden.
Op basis van deze experimentele inzichten introduceren we BaseReward, een krachtige en efficiënte baseline voor multimodale beloningsmodellering. BaseReward hanteert een eenvoudige maar effectieve architectuur, gebouwd op een {Qwen2.5-VL} basismodel, met een geoptimaliseerde tweelaagse beloningskop, en wordt getraind op een zorgvuldig samengestelde mix van hoogwaardige multimodale en tekstuele voorkeursdata. Onze resultaten tonen aan dat BaseReward een nieuwe state-of-the-art (SOTA) vestigt op belangrijke benchmarks zoals MM-RLHF-Reward Bench, VL-Reward Bench en Multimodal Reward Bench, waarbij het eerdere modellen overtreft. Bovendien valideren we de praktische bruikbaarheid ervan buiten statische benchmarks door BaseReward te integreren in een real-world reinforcement learning-pijplijn, waardoor de prestaties van een MLLM worden verbeterd op verschillende perceptie-, redeneer- en gesprekstaken. Dit werk levert niet alleen een topklasse MRM op, maar biedt de gemeenschap vooral een duidelijke, empirisch onderbouwde handleiding voor het ontwikkelen van robuuste beloningsmodellen voor de volgende generatie MLLMs.
English
The rapid advancement of Multimodal Large Language Models (MLLMs) has made
aligning them with human preferences a critical challenge. Reward Models (RMs)
are a core technology for achieving this goal, but a systematic guide for
building state-of-the-art Multimodal Reward Models (MRMs) is currently lacking
in both academia and industry. Through exhaustive experimental analysis, this
paper aims to provide a clear ``recipe'' for constructing high-performance
MRMs. We systematically investigate every crucial component in the MRM
development pipeline, including reward modeling paradigms (e.g.,
Naive-RM, Critic-based RM, and Generative RM), reward head
architecture, training strategies, data curation (covering
over ten multimodal and text-only preference datasets), backbone model
and model scale, and ensemble methods.
Based on these experimental insights, we introduce BaseReward, a
powerful and efficient baseline for multimodal reward modeling. BaseReward
adopts a simple yet effective architecture, built upon a {Qwen2.5-VL} backbone,
featuring an optimized two-layer reward head, and is trained on a carefully
curated mixture of high-quality multimodal and text-only preference data. Our
results show that BaseReward establishes a new SOTA on major benchmarks such as
MM-RLHF-Reward Bench, VL-Reward Bench, and Multimodal Reward Bench,
outperforming previous models. Furthermore, to validate its practical utility
beyond static benchmarks, we integrate BaseReward into a real-world
reinforcement learning pipeline, successfully enhancing an MLLM's performance
across various perception, reasoning, and conversational tasks. This work not
only delivers a top-tier MRM but, more importantly, provides the community with
a clear, empirically-backed guide for developing robust reward models for the
next generation of MLLMs.