Multimodal RewardBench 2: Avaliação de Modelos de Recompensa Omni para Texto e Imagem Intercalados
Multimodal RewardBench 2: Evaluating Omni Reward Models for Interleaved Text and Image
December 18, 2025
Autores: Yushi Hu, Reyhane Askari-Hemmat, Melissa Hall, Emily Dinan, Luke Zettlemoyer, Marjan Ghazvininejad
cs.AI
Resumo
Os modelos de recompensa (RMs) são essenciais para o treinamento de grandes modelos de linguagem (LLMs), mas permanecem pouco explorados para modelos omni que lidam com sequências intercaladas de imagem e texto. Apresentamos o Multimodal RewardBench 2 (MMRB2), o primeiro benchmark abrangente para modelos de recompensa em compreensão multimodal e geração (intercalada). O MMRB2 abrange quatro tarefas: texto-para-imagem, edição de imagem, geração intercalada e raciocínio multimodal ("pensar-com-imagens"), fornecendo 1.000 pares de preferência anotados por especialistas por tarefa, provenientes de 23 modelos e agentes em 21 tarefas de origem. O MMRB2 foi concebido com: (1) instruções práticas mas desafiadoras; (2) respostas de modelos e agentes de última geração; e (3) pares de preferência com forte consenso de especialistas humanos, curados através de uma estratégia de filtragem por ensemble. Utilizando o MMRB2, estudamos os juízes existentes para cada subtarefa, incluindo LLMs multimodais como juízes e modelos treinados com preferências humanas. O mais recente Gemini 3 Pro atinge 75-80% de precisão. O GPT-5 e o Gemini 2.5 Pro alcançam 66-75% de precisão, comparados com >90% para humanos, mas superam o amplamente utilizado GPT-4o (59%). O melhor modelo de código aberto, o Qwen3-VL-32B, atinge precisões semelhantes às do Gemini 2.5 Flash (64%). Também mostramos que o desempenho no MMRB2 correlaciona-se fortemente com o sucesso em tarefas subsequentes usando amostragem Best-of-N e conduzimos uma análise aprofundada que indica áreas-chave para melhorar os modelos de recompensa no futuro.
English
Reward models (RMs) are essential for training large language models (LLMs), but remain underexplored for omni models that handle interleaved image and text sequences. We introduce Multimodal RewardBench 2 (MMRB2), the first comprehensive benchmark for reward models on multimodal understanding and (interleaved) generation. MMRB2 spans four tasks: text-to-image, image editing, interleaved generation, and multimodal reasoning ("thinking-with-images"), providing 1,000 expert-annotated preference pairs per task from 23 models and agents across 21 source tasks. MMRB2 is designed with: (1) practical but challenging prompts; (2) responses from state-of-the-art models and agents; and (3) preference pairs with strong human-expert consensus, curated via an ensemble filtering strategy. Using MMRB2, we study existing judges for each subtask, including multimodal LLM-as-a-judge and models trained with human preferences. The latest Gemini 3 Pro attains 75-80% accuracy. GPT-5 and Gemini 2.5 Pro reach 66-75% accuracy, compared to >90% for humans, yet surpass the widely used GPT-4o (59%). The best performing open-source model Qwen3-VL-32B achieves similar accuracies as Gemini 2.5 Flash (64%). We also show that MMRB2 performance strongly correlates with downstream task success using Best-of-N sampling and conduct an in-depth analysis that shows key areas to improve the reward models going forward.