RBench-V: Eine primäre Bewertung für visuelle Reasoning-Modelle mit multimodalen Ausgaben
RBench-V: A Primary Assessment for Visual Reasoning Models with Multi-modal Outputs
May 22, 2025
Autoren: Meng-Hao Guo, Xuanyu Chu, Qianrui Yang, Zhe-Han Mo, Yiqing Shen, Pei-lin Li, Xinjie Lin, Jinnian Zhang, Xin-Sheng Chen, Yi Zhang, Kiyohiro Nakayama, Zhengyang Geng, Houwen Peng, Han Hu, Shi-Nin Hu
cs.AI
Zusammenfassung
Die rasante Weiterentwicklung nativer multimodaler Modelle und Omni-Modelle, wie sie durch GPT-4o, Gemini und o3 exemplarisch dargestellt werden, mit ihrer Fähigkeit, Inhalte über Modalitäten wie Text und Bilder zu verarbeiten und zu generieren, markiert einen bedeutenden Meilenstein in der Evolution der Intelligenz. Die systematische Bewertung ihrer multimodalen Ausgabefähigkeiten in visuellen Denkprozessen (auch bekannt als multimodale Gedankenkette, M-CoT) wird von entscheidender Bedeutung. Bisherige Benchmarks zur Bewertung multimodaler Modelle konzentrieren sich jedoch hauptsächlich auf die Bewertung multimodaler Eingaben und textbasierter Schlussfolgerungen, während sie die Bedeutung der Schlussfolgerung durch multimodale Ausgaben vernachlässigen. In diesem Artikel stellen wir einen Benchmark vor, genannt RBench-V, der darauf abzielt, die visuell unverzichtbaren Denkfähigkeiten von Modellen zu bewerten. Um RBench-V zu konstruieren, haben wir sorgfältig 803 Fragen aus den Bereichen Mathematik, Physik, Zählen und Spiele ausgewählt. Im Gegensatz zu früheren Benchmarks, die typischerweise bestimmte Eingabemodalitäten vorgeben, präsentiert RBench-V Probleme, die auf multimodalen Ausgaben zentriert sind und Bildmanipulationen wie das Generieren neuer Bilder und das Konstruieren von Hilfslinien zur Unterstützung des Denkprozesses erfordern. Wir bewerten zahlreiche Open-Source- und Closed-Source-Modelle auf RBench-V, darunter o3, Gemini 2.5 Pro, Qwen2.5-VL usw. Selbst das leistungsstärkste Modell, o3, erreicht auf RBench-V nur eine Genauigkeit von 25,8 %, weit unter dem menschlichen Wert von 82,3 %, was zeigt, dass aktuelle Modelle Schwierigkeiten haben, multimodales Denken zu nutzen. Daten und Code sind verfügbar unter https://evalmodels.github.io/rbenchv.
English
The rapid advancement of native multi-modal models and omni-models,
exemplified by GPT-4o, Gemini, and o3, with their capability to process and
generate content across modalities such as text and images, marks a significant
milestone in the evolution of intelligence. Systematic evaluation of their
multi-modal output capabilities in visual thinking processes (also known as
multi-modal chain of thought, M-CoT) becomes critically important. However,
existing benchmarks for evaluating multi-modal models primarily focus on
assessing multi-modal inputs and text-only reasoning while neglecting the
importance of reasoning through multi-modal outputs. In this paper, we present
a benchmark, dubbed RBench-V, designed to assess models' vision-indispensable
reasoning abilities. To construct RBench-V, we carefully hand-pick 803
questions covering math, physics, counting, and games. Unlike previous
benchmarks that typically specify certain input modalities, RBench-V presents
problems centered on multi-modal outputs, which require image manipulation such
as generating novel images and constructing auxiliary lines to support the
reasoning process. We evaluate numerous open- and closed-source models on
RBench-V, including o3, Gemini 2.5 Pro, Qwen2.5-VL, etc. Even the
best-performing model, o3, achieves only 25.8% accuracy on RBench-V, far below
the human score of 82.3%, highlighting that current models struggle to leverage
multi-modal reasoning. Data and code are available at
https://evalmodels.github.io/rbenchvSummary
AI-Generated Summary