ChatPaper.aiChatPaper

RewardBench Multimodal 2 : Évaluation des modèles de récompense omni pour le texte et les images entrelacés

Multimodal RewardBench 2: Evaluating Omni Reward Models for Interleaved Text and Image

December 18, 2025
papers.authors: Yushi Hu, Reyhane Askari-Hemmat, Melissa Hall, Emily Dinan, Luke Zettlemoyer, Marjan Ghazvininejad
cs.AI

papers.abstract

Les modèles de récompense (RMs) sont essentiels pour l'entraînement des grands modèles de langage (LLMs), mais restent peu explorés pour les modèles omni qui traitent des séquences entrelacées d'images et de texte. Nous présentons Multimodal RewardBench 2 (MMRB2), le premier benchmark complet pour les modèles de récompense sur la compréhension multimodale et la génération (entrelacée). MMRB2 couvre quatre tâches : texte-à-image, édition d'image, génération entrelacée et raisonnement multimodal (« penser-avec-des-images »), fournissant 1 000 paires de préférences annotées par des experts par tâche, provenant de 23 modèles et agents à travers 21 tâches sources. MMRB2 est conçu avec : (1) des invites pratiques mais difficiles ; (2) des réponses de modèles et d'agents de pointe ; et (3) des paires de préférences avec un fort consensus d'experts humains, sélectionnées via une stratégie de filtrage par ensemble. En utilisant MMRB2, nous étudions les juges existants pour chaque sous-tâche, incluant les LLM multimodaux utilisés comme juges et les modèles entraînés avec des préférences humaines. Le dernier Gemini 3 Pro atteint une précision de 75 à 80 %. GPT-5 et Gemini 2.5 Pro atteignent une précision de 66 à 75 %, contre plus de 90 % pour les humains, mais surpassent le largement utilisé GPT-4o (59 %). Le meilleur modèle open-source, Qwen3-VL-32B, obtient des précisions similaires à Gemini 2.5 Flash (64 %). Nous montrons également que les performances sur MMRB2 sont fortement corrélées avec le succès sur les tâches en aval en utilisant l'échantillonnage Best-of-N et menons une analyse approfondie qui identifie les domaines clés à améliorer pour les futurs modèles de récompense.
English
Reward models (RMs) are essential for training large language models (LLMs), but remain underexplored for omni models that handle interleaved image and text sequences. We introduce Multimodal RewardBench 2 (MMRB2), the first comprehensive benchmark for reward models on multimodal understanding and (interleaved) generation. MMRB2 spans four tasks: text-to-image, image editing, interleaved generation, and multimodal reasoning ("thinking-with-images"), providing 1,000 expert-annotated preference pairs per task from 23 models and agents across 21 source tasks. MMRB2 is designed with: (1) practical but challenging prompts; (2) responses from state-of-the-art models and agents; and (3) preference pairs with strong human-expert consensus, curated via an ensemble filtering strategy. Using MMRB2, we study existing judges for each subtask, including multimodal LLM-as-a-judge and models trained with human preferences. The latest Gemini 3 Pro attains 75-80% accuracy. GPT-5 and Gemini 2.5 Pro reach 66-75% accuracy, compared to >90% for humans, yet surpass the widely used GPT-4o (59%). The best performing open-source model Qwen3-VL-32B achieves similar accuracies as Gemini 2.5 Flash (64%). We also show that MMRB2 performance strongly correlates with downstream task success using Best-of-N sampling and conduct an in-depth analysis that shows key areas to improve the reward models going forward.
PDF92December 20, 2025