RBench-V: Een primaire evaluatie voor visuele redeneermodellen met multi-modale uitvoer
RBench-V: A Primary Assessment for Visual Reasoning Models with Multi-modal Outputs
May 22, 2025
Auteurs: Meng-Hao Guo, Xuanyu Chu, Qianrui Yang, Zhe-Han Mo, Yiqing Shen, Pei-lin Li, Xinjie Lin, Jinnian Zhang, Xin-Sheng Chen, Yi Zhang, Kiyohiro Nakayama, Zhengyang Geng, Houwen Peng, Han Hu, Shi-Nin Hu
cs.AI
Samenvatting
De snelle vooruitgang van native multimodale modellen en omnimodellen,
vertegenwoordigd door GPT-4o, Gemini en o3, met hun vermogen om inhoud te
verwerken en genereren over verschillende modaliteiten zoals tekst en afbeeldingen,
markeert een belangrijke mijlpaal in de evolutie van intelligentie. Systematische
evaluatie van hun multimodale uitvoercapaciteiten in visuele denkprocessen (ook
wel bekend als multimodale keten van denken, M-CoT) wordt van cruciaal belang.
Echter, bestaande benchmarks voor het evalueren van multimodale modellen richten
zich voornamelijk op het beoordelen van multimodale invoer en tekstueel redeneren,
terwijl het belang van redeneren via multimodale uitvoer wordt verwaarloosd. In
dit artikel presenteren we een benchmark, genaamd RBench-V, die is ontworpen om
de visueel-onmisbare redeneervaardigheden van modellen te beoordelen. Om RBench-V
te construeren, hebben we zorgvuldig 803 vragen geselecteerd die wiskunde, natuurkunde,
tellen en spellen omvatten. In tegenstelling tot eerdere benchmarks die meestal
bepaalde invoermodaliteiten specificeren, presenteert RBench-V problemen die
gericht zijn op multimodale uitvoer, wat beeldmanipulatie vereist, zoals het
genereren van nieuwe afbeeldingen en het construeren van hulplijnen om het
redeneerproces te ondersteunen. We evalueren talrijke open- en closed-source
modellen op RBench-V, waaronder o3, Gemini 2.5 Pro, Qwen2.5-VL, enz. Zelfs het
best presterende model, o3, behaalt slechts een nauwkeurigheid van 25,8% op
RBench-V, ver onder de menselijke score van 82,3%, wat aantoont dat huidige
modellen moeite hebben om multimodaal redeneren te benutten. Data en code zijn
beschikbaar op https://evalmodels.github.io/rbenchv.
English
The rapid advancement of native multi-modal models and omni-models,
exemplified by GPT-4o, Gemini, and o3, with their capability to process and
generate content across modalities such as text and images, marks a significant
milestone in the evolution of intelligence. Systematic evaluation of their
multi-modal output capabilities in visual thinking processes (also known as
multi-modal chain of thought, M-CoT) becomes critically important. However,
existing benchmarks for evaluating multi-modal models primarily focus on
assessing multi-modal inputs and text-only reasoning while neglecting the
importance of reasoning through multi-modal outputs. In this paper, we present
a benchmark, dubbed RBench-V, designed to assess models' vision-indispensable
reasoning abilities. To construct RBench-V, we carefully hand-pick 803
questions covering math, physics, counting, and games. Unlike previous
benchmarks that typically specify certain input modalities, RBench-V presents
problems centered on multi-modal outputs, which require image manipulation such
as generating novel images and constructing auxiliary lines to support the
reasoning process. We evaluate numerous open- and closed-source models on
RBench-V, including o3, Gemini 2.5 Pro, Qwen2.5-VL, etc. Even the
best-performing model, o3, achieves only 25.8% accuracy on RBench-V, far below
the human score of 82.3%, highlighting that current models struggle to leverage
multi-modal reasoning. Data and code are available at
https://evalmodels.github.io/rbenchv