멀티모달 리워드벤치 2: 인터리브 텍스트 및 이미지를 위한 옴니 리워드 모델 평가
Multimodal RewardBench 2: Evaluating Omni Reward Models for Interleaved Text and Image
December 18, 2025
저자: Yushi Hu, Reyhane Askari-Hemmat, Melissa Hall, Emily Dinan, Luke Zettlemoyer, Marjan Ghazvininejad
cs.AI
초록
보상 모델(RM)은 대규모 언어 모델(LLM) 훈련에 필수적이지만, 이미지와 텍스트 시퀀스가 혼재된 입력을 처리하는 옴니 모델(omni model)에 적용되는 연구는 여전히 미흡한 실정입니다. 본 연구에서는 멀티모달 이해 및 (혼재) 생성 작업을 위한 보상 모델의 첫 번째 포괄적인 벤치마크인 Multimodal RewardBench 2(MMRB2)를 소개합니다. MMRB2는 텍스트-이미지 생성, 이미지 편집, 혼재 생성, 그리고 멀티모달 추론("이미지를 활용한 사고")의 네 가지 과제로 구성되며, 21개의 원천 과제에서 23개의 모델과 에이전트로부터 수집된 과제당 1,000개의 전문가 주석(preference pair) 쌍을 제공합니다. MMRB2는 다음과 같은 특징을 갖춰 설계되었습니다: (1) 실용적이면서도 도전적인 프롬프트; (2) 최첨단 모델 및 에이전트의 응답; (3) 앙상블 필터링 전략을 통해 선별된, 강력한 인간 전문가 합의를 반영한 선호도 쌍. MMRB2를 활용하여 각 하위 과제에 대한 기존 평가자(judge), 즉 멀티모달 LLM-as-a-judge와 인간 선호도로 훈련된 모델들을 분석합니다. 최신 Gemini 3 Pro는 75-80%의 정확도를 달성했습니다. GPT-5와 Gemini 2.5 Pro는 인간의 >90% 정확도에 비해 66-75%의 정확도를 보이지만, 널리 사용되는 GPT-4o(59%)를 능가합니다. 최고 성능의 오픈소스 모델인 Qwen3-VL-32B는 Gemini 2.5 Flash(64%)와 유사한 정확도를 달성했습니다. 또한 Best-of-N 샘플링을 사용하여 MMRB2 성능이 다운스트림 과제 성공과 강하게 상관관계가 있음을 보여주며, 향후 보상 모델 개선을 위한 핵심 영역을 제시하는 심층 분석을 수행합니다.
English
Reward models (RMs) are essential for training large language models (LLMs), but remain underexplored for omni models that handle interleaved image and text sequences. We introduce Multimodal RewardBench 2 (MMRB2), the first comprehensive benchmark for reward models on multimodal understanding and (interleaved) generation. MMRB2 spans four tasks: text-to-image, image editing, interleaved generation, and multimodal reasoning ("thinking-with-images"), providing 1,000 expert-annotated preference pairs per task from 23 models and agents across 21 source tasks. MMRB2 is designed with: (1) practical but challenging prompts; (2) responses from state-of-the-art models and agents; and (3) preference pairs with strong human-expert consensus, curated via an ensemble filtering strategy. Using MMRB2, we study existing judges for each subtask, including multimodal LLM-as-a-judge and models trained with human preferences. The latest Gemini 3 Pro attains 75-80% accuracy. GPT-5 and Gemini 2.5 Pro reach 66-75% accuracy, compared to >90% for humans, yet surpass the widely used GPT-4o (59%). The best performing open-source model Qwen3-VL-32B achieves similar accuracies as Gemini 2.5 Flash (64%). We also show that MMRB2 performance strongly correlates with downstream task success using Best-of-N sampling and conduct an in-depth analysis that shows key areas to improve the reward models going forward.