RBench-V: Una Valutazione Primaria per Modelli di Ragionamento Visivo con Output Multi-modali
RBench-V: A Primary Assessment for Visual Reasoning Models with Multi-modal Outputs
May 22, 2025
Autori: Meng-Hao Guo, Xuanyu Chu, Qianrui Yang, Zhe-Han Mo, Yiqing Shen, Pei-lin Li, Xinjie Lin, Jinnian Zhang, Xin-Sheng Chen, Yi Zhang, Kiyohiro Nakayama, Zhengyang Geng, Houwen Peng, Han Hu, Shi-Nin Hu
cs.AI
Abstract
Il rapido progresso dei modelli nativi multimodali e omni-modelli, esemplificati da GPT-4o, Gemini e o3, con la loro capacità di elaborare e generare contenuti attraverso modalità come testo e immagini, rappresenta una pietra miliare significativa nell'evoluzione dell'intelligenza. La valutazione sistematica delle loro capacità di output multimodali nei processi di pensiero visivo (noti anche come catena di pensiero multimodale, M-CoT) diventa di fondamentale importanza. Tuttavia, i benchmark esistenti per valutare i modelli multimodali si concentrano principalmente sull'analisi degli input multimodali e sul ragionamento basato esclusivamente sul testo, trascurando l'importanza del ragionamento attraverso output multimodali. In questo articolo, presentiamo un benchmark, denominato RBench-V, progettato per valutare le capacità di ragionamento indispensabili per la visione dei modelli. Per costruire RBench-V, abbiamo selezionato con cura 803 domande che coprono matematica, fisica, conteggio e giochi. A differenza dei benchmark precedenti che tipicamente specificano determinate modalità di input, RBench-V presenta problemi incentrati su output multimodali, che richiedono manipolazioni di immagini come la generazione di nuove immagini e la costruzione di linee ausiliarie per supportare il processo di ragionamento. Abbiamo valutato numerosi modelli open-source e closed-source su RBench-V, inclusi o3, Gemini 2.5 Pro, Qwen2.5-VL, ecc. Anche il modello con le migliori prestazioni, o3, raggiunge solo il 25,8% di accuratezza su RBench-V, ben al di sotto del punteggio umano dell'82,3%, evidenziando che i modelli attuali faticano a sfruttare il ragionamento multimodale. Dati e codice sono disponibili all'indirizzo https://evalmodels.github.io/rbenchv.
English
The rapid advancement of native multi-modal models and omni-models,
exemplified by GPT-4o, Gemini, and o3, with their capability to process and
generate content across modalities such as text and images, marks a significant
milestone in the evolution of intelligence. Systematic evaluation of their
multi-modal output capabilities in visual thinking processes (also known as
multi-modal chain of thought, M-CoT) becomes critically important. However,
existing benchmarks for evaluating multi-modal models primarily focus on
assessing multi-modal inputs and text-only reasoning while neglecting the
importance of reasoning through multi-modal outputs. In this paper, we present
a benchmark, dubbed RBench-V, designed to assess models' vision-indispensable
reasoning abilities. To construct RBench-V, we carefully hand-pick 803
questions covering math, physics, counting, and games. Unlike previous
benchmarks that typically specify certain input modalities, RBench-V presents
problems centered on multi-modal outputs, which require image manipulation such
as generating novel images and constructing auxiliary lines to support the
reasoning process. We evaluate numerous open- and closed-source models on
RBench-V, including o3, Gemini 2.5 Pro, Qwen2.5-VL, etc. Even the
best-performing model, o3, achieves only 25.8% accuracy on RBench-V, far below
the human score of 82.3%, highlighting that current models struggle to leverage
multi-modal reasoning. Data and code are available at
https://evalmodels.github.io/rbenchv