RBench-V: Основная система оценки моделей визуального мышления с мультимодальными выходами
RBench-V: A Primary Assessment for Visual Reasoning Models with Multi-modal Outputs
May 22, 2025
Авторы: Meng-Hao Guo, Xuanyu Chu, Qianrui Yang, Zhe-Han Mo, Yiqing Shen, Pei-lin Li, Xinjie Lin, Jinnian Zhang, Xin-Sheng Chen, Yi Zhang, Kiyohiro Nakayama, Zhengyang Geng, Houwen Peng, Han Hu, Shi-Nin Hu
cs.AI
Аннотация
Быстрое развитие нативных мультимодальных моделей и омни-моделей, таких как GPT-4o, Gemini и o3, с их способностью обрабатывать и генерировать контент в различных модальностях, таких как текст и изображения, знаменует собой важный этап в эволюции искусственного интеллекта. Систематическая оценка их мультимодальных возможностей в процессах визуального мышления (также известных как мультимодальная цепочка рассуждений, M-CoT) становится крайне важной. Однако существующие бенчмарки для оценки мультимодальных моделей в основном сосредоточены на анализе мультимодальных входных данных и текстового рассуждения, игнорируя важность рассуждений через мультимодальные выходные данные. В данной статье мы представляем бенчмарк под названием RBench-V, предназначенный для оценки способностей моделей к рассуждениям, требующим визуального восприятия. Для создания RBench-V мы тщательно отобрали 803 вопроса, охватывающих математику, физику, подсчет и игры. В отличие от предыдущих бенчмарков, которые обычно указывают определенные входные модальности, RBench-V предлагает задачи, сосредоточенные на мультимодальных выходных данных, которые требуют манипуляций с изображениями, таких как генерация новых изображений и построение вспомогательных линий для поддержки процесса рассуждения. Мы оцениваем множество открытых и закрытых моделей на RBench-V, включая o3, Gemini 2.5 Pro, Qwen2.5-VL и другие. Даже лучшая модель, o3, достигает точности всего 25,8% на RBench-V, что значительно ниже человеческого показателя в 82,3%, что подчеркивает трудности современных моделей в использовании мультимодальных рассуждений. Данные и код доступны по адресу https://evalmodels.github.io/rbenchv.
English
The rapid advancement of native multi-modal models and omni-models,
exemplified by GPT-4o, Gemini, and o3, with their capability to process and
generate content across modalities such as text and images, marks a significant
milestone in the evolution of intelligence. Systematic evaluation of their
multi-modal output capabilities in visual thinking processes (also known as
multi-modal chain of thought, M-CoT) becomes critically important. However,
existing benchmarks for evaluating multi-modal models primarily focus on
assessing multi-modal inputs and text-only reasoning while neglecting the
importance of reasoning through multi-modal outputs. In this paper, we present
a benchmark, dubbed RBench-V, designed to assess models' vision-indispensable
reasoning abilities. To construct RBench-V, we carefully hand-pick 803
questions covering math, physics, counting, and games. Unlike previous
benchmarks that typically specify certain input modalities, RBench-V presents
problems centered on multi-modal outputs, which require image manipulation such
as generating novel images and constructing auxiliary lines to support the
reasoning process. We evaluate numerous open- and closed-source models on
RBench-V, including o3, Gemini 2.5 Pro, Qwen2.5-VL, etc. Even the
best-performing model, o3, achieves only 25.8% accuracy on RBench-V, far below
the human score of 82.3%, highlighting that current models struggle to leverage
multi-modal reasoning. Data and code are available at
https://evalmodels.github.io/rbenchvSummary
AI-Generated Summary