BaseReward: Надежный Базовый Подход для Мультимодальной Модели Вознаграждения
BaseReward: A Strong Baseline for Multimodal Reward Model
September 19, 2025
Авторы: Yi-Fan Zhang, Haihua Yang, Huanyu Zhang, Yang Shi, Zezhou Chen, Haochen Tian, Chaoyou Fu, Haotian Wang, Kai Wu, Bo Cui, Xu Wang, Jianfei Pan, Haotian Wang, Zhang Zhang, Liang Wang
cs.AI
Аннотация
Быстрое развитие мультимодальных больших языковых моделей (MLLMs) сделало их согласование с человеческими предпочтениями критически важной задачей. Модели вознаграждения (RMs) являются ключевой технологией для достижения этой цели, однако как в академических кругах, так и в индустрии отсутствует систематическое руководство по созданию передовых мультимодальных моделей вознаграждения (MRMs). На основе всестороннего экспериментального анализа данная работа ставит целью предоставить четкий «рецепт» для построения высокопроизводительных MRMs. Мы систематически исследуем каждый важный компонент в процессе разработки MRM, включая парадигмы моделирования вознаграждения (например, Naive-RM, Critic-based RM и Generative RM), архитектуру головы вознаграждения, стратегии обучения, подготовку данных (охватывающую более десяти мультимодальных и текстовых наборов данных предпочтений), базовую модель и масштаб модели, а также методы ансамблирования.
На основе этих экспериментальных данных мы представляем BaseReward — мощный и эффективный базовый подход для мультимодального моделирования вознаграждения. BaseReward использует простую, но эффективную архитектуру, основанную на базовой модели {Qwen2.5-VL}, оснащенную оптимизированной двухслойной головой вознаграждения и обученную на тщательно отобранной смеси высококачественных мультимодальных и текстовых данных предпочтений. Наши результаты показывают, что BaseReward устанавливает новый рекорд на основных бенчмарках, таких как MM-RLHF-Reward Bench, VL-Reward Bench и Multimodal Reward Bench, превосходя предыдущие модели. Кроме того, чтобы подтвердить ее практическую полезность за пределами статических бенчмарков, мы интегрировали BaseReward в реальный конвейер обучения с подкреплением, успешно улучшив производительность MLLM в различных задачах восприятия, рассуждения и диалога. Эта работа не только предоставляет передовую MRM, но, что более важно, предлагает сообществу четкое, эмпирически обоснованное руководство для разработки надежных моделей вознаграждения для следующего поколения MLLMs.
English
The rapid advancement of Multimodal Large Language Models (MLLMs) has made
aligning them with human preferences a critical challenge. Reward Models (RMs)
are a core technology for achieving this goal, but a systematic guide for
building state-of-the-art Multimodal Reward Models (MRMs) is currently lacking
in both academia and industry. Through exhaustive experimental analysis, this
paper aims to provide a clear ``recipe'' for constructing high-performance
MRMs. We systematically investigate every crucial component in the MRM
development pipeline, including reward modeling paradigms (e.g.,
Naive-RM, Critic-based RM, and Generative RM), reward head
architecture, training strategies, data curation (covering
over ten multimodal and text-only preference datasets), backbone model
and model scale, and ensemble methods.
Based on these experimental insights, we introduce BaseReward, a
powerful and efficient baseline for multimodal reward modeling. BaseReward
adopts a simple yet effective architecture, built upon a {Qwen2.5-VL} backbone,
featuring an optimized two-layer reward head, and is trained on a carefully
curated mixture of high-quality multimodal and text-only preference data. Our
results show that BaseReward establishes a new SOTA on major benchmarks such as
MM-RLHF-Reward Bench, VL-Reward Bench, and Multimodal Reward Bench,
outperforming previous models. Furthermore, to validate its practical utility
beyond static benchmarks, we integrate BaseReward into a real-world
reinforcement learning pipeline, successfully enhancing an MLLM's performance
across various perception, reasoning, and conversational tasks. This work not
only delivers a top-tier MRM but, more importantly, provides the community with
a clear, empirically-backed guide for developing robust reward models for the
next generation of MLLMs.