ChatPaper.aiChatPaper

Multimodal RewardBench 2: Оценка универсальных моделей вознаграждения для чередующегося текста и изображений

Multimodal RewardBench 2: Evaluating Omni Reward Models for Interleaved Text and Image

December 18, 2025
Авторы: Yushi Hu, Reyhane Askari-Hemmat, Melissa Hall, Emily Dinan, Luke Zettlemoyer, Marjan Ghazvininejad
cs.AI

Аннотация

Модели вознаграждения (Reward Models, RMs) играют ключевую роль в обучении больших языковых моделей (LLMs), однако их применение к омни-моделям, обрабатывающим чередующиеся последовательности изображений и текста, остается малоизученным. Мы представляем Multimodal RewardBench 2 (MMRB2) — первый комплексный бенчмарк для оценки моделей вознаграждения на задачах мультимодального понимания и (чередующейся) генерации. MMRB2 охватывает четыре типа задач: текст-в-изображение, редактирование изображений, чередующаяся генерация и мультимодальные рассуждения («мышление с изображениями»), предоставляя по 1000 экспертно размеченных пар предпочтений для каждой задачи, собранных из 23 моделей и агентов на основе 21 исходной задачи. MMRB2 разработан с учетом: (1) практичных, но сложных промптов; (2) ответов от современных моделей и агентов; и (3) пар предпочтений с высоким консенсусом среди экспертов-людей, отобранных с помощью стратегии ансамблевой фильтрации. Используя MMRB2, мы исследуем существующие системы оценки для каждой подзадачи, включая подход «мультимодальная LLM как судья» и модели, обученные на человеческих предпочтениях. Новейшая модель Gemini 3 Pro достигает точности 75–80%. GPT-5 и Gemini 2.5 Pro демонстрируют точность 66–75% по сравнению с >90% у людей, но превосходят широко используемую GPT-4o (59%). Лучшая открытая модель Qwen3-VL-32B показывает схожую точность с Gemini 2.5 Flash (64%). Мы также демонстрируем, что производительность на MMRB2 сильно коррелирует с успехом на downstream-задачах при использовании Best-of-N сэмплирования, и проводим углубленный анализ, который выявляет ключевые направления для улучшения моделей вознаграждения в будущем.
English
Reward models (RMs) are essential for training large language models (LLMs), but remain underexplored for omni models that handle interleaved image and text sequences. We introduce Multimodal RewardBench 2 (MMRB2), the first comprehensive benchmark for reward models on multimodal understanding and (interleaved) generation. MMRB2 spans four tasks: text-to-image, image editing, interleaved generation, and multimodal reasoning ("thinking-with-images"), providing 1,000 expert-annotated preference pairs per task from 23 models and agents across 21 source tasks. MMRB2 is designed with: (1) practical but challenging prompts; (2) responses from state-of-the-art models and agents; and (3) preference pairs with strong human-expert consensus, curated via an ensemble filtering strategy. Using MMRB2, we study existing judges for each subtask, including multimodal LLM-as-a-judge and models trained with human preferences. The latest Gemini 3 Pro attains 75-80% accuracy. GPT-5 and Gemini 2.5 Pro reach 66-75% accuracy, compared to >90% for humans, yet surpass the widely used GPT-4o (59%). The best performing open-source model Qwen3-VL-32B achieves similar accuracies as Gemini 2.5 Flash (64%). We also show that MMRB2 performance strongly correlates with downstream task success using Best-of-N sampling and conduct an in-depth analysis that shows key areas to improve the reward models going forward.
PDF92December 20, 2025