BaseReward: Ein robustes Basismodell für multimodale Belohnungsmodelle
BaseReward: A Strong Baseline for Multimodal Reward Model
September 19, 2025
papers.authors: Yi-Fan Zhang, Haihua Yang, Huanyu Zhang, Yang Shi, Zezhou Chen, Haochen Tian, Chaoyou Fu, Haotian Wang, Kai Wu, Bo Cui, Xu Wang, Jianfei Pan, Haotian Wang, Zhang Zhang, Liang Wang
cs.AI
papers.abstract
Die rasante Weiterentwicklung von Multimodalen Großen Sprachmodellen (MLLMs) hat die Ausrichtung an menschlichen Präferenzen zu einer zentralen Herausforderung gemacht. Belohnungsmodelle (RMs) sind eine Schlüsseltechnologie, um dieses Ziel zu erreichen, doch sowohl in der Wissenschaft als auch in der Industrie fehlt derzeit ein systematischer Leitfaden für die Entwicklung modernster Multimodaler Belohnungsmodelle (MRMs). Durch umfassende experimentelle Analysen zielt diese Arbeit darauf ab, eine klare „Anleitung“ für die Konstruktion hochleistungsfähiger MRMs zu liefern. Wir untersuchen systematisch jede entscheidende Komponente in der MRM-Entwicklungspipeline, darunter Belohnungsmodellierungs-Paradigmen (z. B. Naive-RM, Kritikbasierte RM und Generative RM), die Architektur des Belohnungskopfs, Trainingsstrategien, Datenaufbereitung (unter Einbeziehung von über zehn multimodalen und textbasierten Präferenzdatensätzen), Backbone-Modell und Modellgröße sowie Ensemble-Methoden.
Auf Basis dieser experimentellen Erkenntnisse stellen wir BaseReward vor, eine leistungsstarke und effiziente Baseline für die multimodale Belohnungsmodellierung. BaseReward verwendet eine einfache, aber effektive Architektur, die auf einem {Qwen2.5-VL}-Backbone basiert, einen optimierten zweischichtigen Belohnungskopf aufweist und mit einer sorgfältig zusammengestellten Mischung aus hochwertigen multimodalen und textbasierten Präferenzdaten trainiert wird. Unsere Ergebnisse zeigen, dass BaseReward auf wichtigen Benchmarks wie MM-RLHF-Reward Bench, VL-Reward Bench und Multimodal Reward Bench einen neuen State-of-the-Art (SOTA) etabliert und bisherige Modelle übertrifft. Darüber hinaus validieren wir den praktischen Nutzen von BaseReward über statische Benchmarks hinaus, indem wir es in eine reale Reinforcement-Learning-Pipeline integrieren und damit die Leistung eines MLLMs in verschiedenen Wahrnehmungs-, Denk- und Konversationsaufgaben erfolgreich verbessern. Diese Arbeit liefert nicht nur ein erstklassiges MRM, sondern bietet der Gemeinschaft vor allem einen klaren, empirisch fundierten Leitfaden für die Entwicklung robuster Belohnungsmodelle für die nächste Generation von MLLMs.
English
The rapid advancement of Multimodal Large Language Models (MLLMs) has made
aligning them with human preferences a critical challenge. Reward Models (RMs)
are a core technology for achieving this goal, but a systematic guide for
building state-of-the-art Multimodal Reward Models (MRMs) is currently lacking
in both academia and industry. Through exhaustive experimental analysis, this
paper aims to provide a clear ``recipe'' for constructing high-performance
MRMs. We systematically investigate every crucial component in the MRM
development pipeline, including reward modeling paradigms (e.g.,
Naive-RM, Critic-based RM, and Generative RM), reward head
architecture, training strategies, data curation (covering
over ten multimodal and text-only preference datasets), backbone model
and model scale, and ensemble methods.
Based on these experimental insights, we introduce BaseReward, a
powerful and efficient baseline for multimodal reward modeling. BaseReward
adopts a simple yet effective architecture, built upon a {Qwen2.5-VL} backbone,
featuring an optimized two-layer reward head, and is trained on a carefully
curated mixture of high-quality multimodal and text-only preference data. Our
results show that BaseReward establishes a new SOTA on major benchmarks such as
MM-RLHF-Reward Bench, VL-Reward Bench, and Multimodal Reward Bench,
outperforming previous models. Furthermore, to validate its practical utility
beyond static benchmarks, we integrate BaseReward into a real-world
reinforcement learning pipeline, successfully enhancing an MLLM's performance
across various perception, reasoning, and conversational tasks. This work not
only delivers a top-tier MRM but, more importantly, provides the community with
a clear, empirically-backed guide for developing robust reward models for the
next generation of MLLMs.