ChatPaper.aiChatPaper

RBench-V: 다중 모달 출력을 갖는 시각적 추론 모델을 위한 기본 평가 프레임워크

RBench-V: A Primary Assessment for Visual Reasoning Models with Multi-modal Outputs

May 22, 2025
저자: Meng-Hao Guo, Xuanyu Chu, Qianrui Yang, Zhe-Han Mo, Yiqing Shen, Pei-lin Li, Xinjie Lin, Jinnian Zhang, Xin-Sheng Chen, Yi Zhang, Kiyohiro Nakayama, Zhengyang Geng, Houwen Peng, Han Hu, Shi-Nin Hu
cs.AI

초록

GPT-4o, Gemini, o3와 같은 모델들이 텍스트와 이미지 등 다양한 모달리티를 처리하고 생성할 수 있는 능력을 보여주며, 네이티브 멀티모달 모델과 오미모델의 급속한 발전은 지능의 진화에서 중요한 이정표를 나타냅니다. 이들의 멀티모달 출력 능력을 시각적 사고 과정(멀티모달 사고 연쇄, M-CoT)에서 체계적으로 평가하는 것은 매우 중요해졌습니다. 그러나 기존의 멀티모달 모델 평가 벤치마크는 주로 멀티모달 입력과 텍스트 전용 추론을 평가하는 데 초점을 맞추고 있으며, 멀티모달 출력을 통한 추론의 중요성을 간과하고 있습니다. 본 논문에서는 모델의 시각적 추론 능력을 평가하기 위해 RBench-V라는 벤치마크를 제안합니다. RBench-V를 구성하기 위해 수학, 물리학, 계수, 게임 등 다양한 분야를 아우르는 803개의 질문을 신중하게 선별했습니다. 기존 벤치마크와 달리 RBench-V는 특정 입력 모달리티를 지정하기보다는 새로운 이미지 생성 및 보조선 구성과 같은 이미지 조작이 필요한 멀티모달 출력 중심의 문제를 제시합니다. 우리는 o3, Gemini 2.5 Pro, Qwen2.5-VL 등 다양한 오픈소스 및 클로즈드소스 모델을 RBench-V에서 평가했습니다. 가장 성능이 뛰어난 o3 모델조차 RBench-V에서 25.8%의 정확도를 보였으며, 이는 인간의 점수인 82.3%에 훨씬 못 미치는 수준으로, 현재의 모델들이 멀티모달 추론을 활용하는 데 어려움을 겪고 있음을 보여줍니다. 데이터와 코드는 https://evalmodels.github.io/rbenchv에서 확인할 수 있습니다.
English
The rapid advancement of native multi-modal models and omni-models, exemplified by GPT-4o, Gemini, and o3, with their capability to process and generate content across modalities such as text and images, marks a significant milestone in the evolution of intelligence. Systematic evaluation of their multi-modal output capabilities in visual thinking processes (also known as multi-modal chain of thought, M-CoT) becomes critically important. However, existing benchmarks for evaluating multi-modal models primarily focus on assessing multi-modal inputs and text-only reasoning while neglecting the importance of reasoning through multi-modal outputs. In this paper, we present a benchmark, dubbed RBench-V, designed to assess models' vision-indispensable reasoning abilities. To construct RBench-V, we carefully hand-pick 803 questions covering math, physics, counting, and games. Unlike previous benchmarks that typically specify certain input modalities, RBench-V presents problems centered on multi-modal outputs, which require image manipulation such as generating novel images and constructing auxiliary lines to support the reasoning process. We evaluate numerous open- and closed-source models on RBench-V, including o3, Gemini 2.5 Pro, Qwen2.5-VL, etc. Even the best-performing model, o3, achieves only 25.8% accuracy on RBench-V, far below the human score of 82.3%, highlighting that current models struggle to leverage multi-modal reasoning. Data and code are available at https://evalmodels.github.io/rbenchv

Summary

AI-Generated Summary

PDF103May 26, 2025