Multimodales RewardBench 2: Bewertung omnimodaler Belohnungsmodelle für verschachtelten Text und Bilder
Multimodal RewardBench 2: Evaluating Omni Reward Models for Interleaved Text and Image
December 18, 2025
papers.authors: Yushi Hu, Reyhane Askari-Hemmat, Melissa Hall, Emily Dinan, Luke Zettlemoyer, Marjan Ghazvininejad
cs.AI
papers.abstract
Belohnungsmodelle (RMs) sind entscheidend für das Training großer Sprachmodelle (LLMs), sind jedoch für Omni-Modelle, die verzahnte Bild- und Textsequenzen verarbeiten, noch unzureichend erforscht. Wir stellen Multimodal RewardBench 2 (MMRB2) vor, den ersten umfassenden Benchmark für Belohnungsmodelle für multimodales Verständnis und (verzahnte) Generierung. MMRB2 umfasst vier Aufgaben: Text-zu-Bild, Bildbearbeitung, verzahnte Generierung und multimodales Schließen („Denken-mit-Bildern“) und bietet pro Aufgabe 1.000 von Experten annotierte Präferenzpaare von 23 Modellen und Agenten aus 21 Quellaufgaben. MMRB2 ist konzipiert mit: (1) praktischen aber anspruchsvollen Prompts; (2) Antworten von state-of-the-art Modellen und Agenten; und (3) Präferenzpaaren mit starkem menschlichem Expertenkonsens, die mittels einer Ensemble-Filterstrategie kuratiert wurden. Mit MMRB2 untersuchen wir existierende Bewertungssysteme für jede Teilaufgabe, einschließlich multimodaler LLM-as-a-judge und mit menschlichen Präferenzen trainierter Modelle. Das neueste Gemini 3 Pro erreicht eine Genauigkeit von 75-80%. GPT-5 und Gemini 2.5 Pro erreichen 66-75% Genauigkeit, verglichen mit >90% für Menschen, übertreffen aber das weit verbreitete GPT-4o (59%). Das beste Open-Source-Modell Qwen3-VL-32B erreicht ähnliche Genauigkeiten wie Gemini 2.5 Flash (64%). Wir zeigen auch, dass die MMRB2-Leistung stark mit dem Erfolg bei nachgelagerten Aufgaben mittels Best-of-N-Sampling korreliert, und führen eine detaillierte Analyse durch, die Schlüsselbereiche zur Verbesserung der Belohnungsmodelle für die Zukunft aufzeigt.
English
Reward models (RMs) are essential for training large language models (LLMs), but remain underexplored for omni models that handle interleaved image and text sequences. We introduce Multimodal RewardBench 2 (MMRB2), the first comprehensive benchmark for reward models on multimodal understanding and (interleaved) generation. MMRB2 spans four tasks: text-to-image, image editing, interleaved generation, and multimodal reasoning ("thinking-with-images"), providing 1,000 expert-annotated preference pairs per task from 23 models and agents across 21 source tasks. MMRB2 is designed with: (1) practical but challenging prompts; (2) responses from state-of-the-art models and agents; and (3) preference pairs with strong human-expert consensus, curated via an ensemble filtering strategy. Using MMRB2, we study existing judges for each subtask, including multimodal LLM-as-a-judge and models trained with human preferences. The latest Gemini 3 Pro attains 75-80% accuracy. GPT-5 and Gemini 2.5 Pro reach 66-75% accuracy, compared to >90% for humans, yet surpass the widely used GPT-4o (59%). The best performing open-source model Qwen3-VL-32B achieves similar accuracies as Gemini 2.5 Flash (64%). We also show that MMRB2 performance strongly correlates with downstream task success using Best-of-N sampling and conduct an in-depth analysis that shows key areas to improve the reward models going forward.