ChatPaper.aiChatPaper

マルチモーダルRewardBench 2:インタリーブされたテキストと画像に対するオムニ報酬モデルの評価

Multimodal RewardBench 2: Evaluating Omni Reward Models for Interleaved Text and Image

December 18, 2025
著者: Yushi Hu, Reyhane Askari-Hemmat, Melissa Hall, Emily Dinan, Luke Zettlemoyer, Marjan Ghazvininejad
cs.AI

要旨

報酬モデル(RMs)は大規模言語モデル(LLMs)の訓練に不可欠であるが、画像とテキストの交互配置シーケンスを扱うオムニモデルへの応用は未開拓のままである。本研究では、マルチモーダル理解と(交互配置)生成における報酬モデルの最初の包括的ベンチマークであるMultimodal RewardBench 2(MMRB2)を提案する。MMRB2は、テキストから画像への生成、画像編集、交互配置生成、マルチモーダル推論(「画像を用いた思考」)の4タスクを網羅し、21のソースタスクから23のモデルとエージェントを用いて、タスク毎に1,000組の専門家注釈付き選好ペアを提供する。MMRB2は以下の特徴を備えて設計されている:(1)実用的かつ挑戦的なプロンプト、(2)最先端のモデルとエージェントからの応答、(3)アンサンブルフィルタリング戦略により精選された、強力な人間専門家の合意がある選好ペア。MMRB2を用いて、マルチモーダルLLM-as-a-judgeや人間の選好で訓練されたモデルを含む、各サブタスクに対する既存の評価手法を検証する。最新のGemini 3 Proは75-80%の精度を達成する。GPT-5とGemini 2.5 Proは66-75%の精度に達し(人間の90%超と比較)、広く使用されているGPT-4o(59%)を上回る。最高性能のオープンソースモデルであるQwen3-VL-32Bは、Gemini 2.5 Flash(64%)と同様の精度を達成する。また、Best-of-Nサンプリングを用いた下流タスクの成功とMMRB2の性能が強く相関することを示し、報酬モデルを改善すべき重要な領域を明らかにする詳細な分析を行う。
English
Reward models (RMs) are essential for training large language models (LLMs), but remain underexplored for omni models that handle interleaved image and text sequences. We introduce Multimodal RewardBench 2 (MMRB2), the first comprehensive benchmark for reward models on multimodal understanding and (interleaved) generation. MMRB2 spans four tasks: text-to-image, image editing, interleaved generation, and multimodal reasoning ("thinking-with-images"), providing 1,000 expert-annotated preference pairs per task from 23 models and agents across 21 source tasks. MMRB2 is designed with: (1) practical but challenging prompts; (2) responses from state-of-the-art models and agents; and (3) preference pairs with strong human-expert consensus, curated via an ensemble filtering strategy. Using MMRB2, we study existing judges for each subtask, including multimodal LLM-as-a-judge and models trained with human preferences. The latest Gemini 3 Pro attains 75-80% accuracy. GPT-5 and Gemini 2.5 Pro reach 66-75% accuracy, compared to >90% for humans, yet surpass the widely used GPT-4o (59%). The best performing open-source model Qwen3-VL-32B achieves similar accuracies as Gemini 2.5 Flash (64%). We also show that MMRB2 performance strongly correlates with downstream task success using Best-of-N sampling and conduct an in-depth analysis that shows key areas to improve the reward models going forward.
PDF92December 20, 2025