RBench-V: Una Valutazione Primaria per Modelli di Ragionamento Visivo con Output Multi-modali

Abstract

Il rapido progresso dei modelli nativi multimodali e omni-modelli, esemplificati da GPT-4o, Gemini e o3, con la loro capacità di elaborare e generare contenuti attraverso modalità come testo e immagini, rappresenta una pietra miliare significativa nell'evoluzione dell'intelligenza. La valutazione sistematica delle loro capacità di output multimodali nei processi di pensiero visivo (noti anche come catena di pensiero multimodale, M-CoT) diventa di fondamentale importanza. Tuttavia, i benchmark esistenti per valutare i modelli multimodali si concentrano principalmente sull'analisi degli input multimodali e sul ragionamento basato esclusivamente sul testo, trascurando l'importanza del ragionamento attraverso output multimodali. In questo articolo, presentiamo un benchmark, denominato RBench-V, progettato per valutare le capacità di ragionamento indispensabili per la visione dei modelli. Per costruire RBench-V, abbiamo selezionato con cura 803 domande che coprono matematica, fisica, conteggio e giochi. A differenza dei benchmark precedenti che tipicamente specificano determinate modalità di input, RBench-V presenta problemi incentrati su output multimodali, che richiedono manipolazioni di immagini come la generazione di nuove immagini e la costruzione di linee ausiliarie per supportare il processo di ragionamento. Abbiamo valutato numerosi modelli open-source e closed-source su RBench-V, inclusi o3, Gemini 2.5 Pro, Qwen2.5-VL, ecc. Anche il modello con le migliori prestazioni, o3, raggiunge solo il 25,8% di accuratezza su RBench-V, ben al di sotto del punteggio umano dell'82,3%, evidenziando che i modelli attuali faticano a sfruttare il ragionamento multimodale. Dati e codice sono disponibili all'indirizzo https://evalmodels.github.io/rbenchv.

English

The rapid advancement of native multi-modal models and omni-models, exemplified by GPT-4o, Gemini, and o3, with their capability to process and generate content across modalities such as text and images, marks a significant milestone in the evolution of intelligence. Systematic evaluation of their multi-modal output capabilities in visual thinking processes (also known as multi-modal chain of thought, M-CoT) becomes critically important. However, existing benchmarks for evaluating multi-modal models primarily focus on assessing multi-modal inputs and text-only reasoning while neglecting the importance of reasoning through multi-modal outputs. In this paper, we present a benchmark, dubbed RBench-V, designed to assess models' vision-indispensable reasoning abilities. To construct RBench-V, we carefully hand-pick 803 questions covering math, physics, counting, and games. Unlike previous benchmarks that typically specify certain input modalities, RBench-V presents problems centered on multi-modal outputs, which require image manipulation such as generating novel images and constructing auxiliary lines to support the reasoning process. We evaluate numerous open- and closed-source models on RBench-V, including o3, Gemini 2.5 Pro, Qwen2.5-VL, etc. Even the best-performing model, o3, achieves only 25.8% accuracy on RBench-V, far below the human score of 82.3%, highlighting that current models struggle to leverage multi-modal reasoning. Data and code are available at https://evalmodels.github.io/rbenchv

RBench-V: Una Valutazione Primaria per Modelli di Ragionamento Visivo con Output Multi-modali

RBench-V: A Primary Assessment for Visual Reasoning Models with Multi-modal Outputs

Abstract

Support