Quando la visualizzazione è il primo passo verso il ragionamento: MIRA, un benchmark per il ragionamento a catena visivo
When Visualizing is the First Step to Reasoning: MIRA, a Benchmark for Visual Chain-of-Thought
November 4, 2025
Autori: Yiyang Zhou, Haoqin Tu, Zijun Wang, Zeyu Wang, Niklas Muennighoff, Fan Nie, Yejin Choi, James Zou, Chaorui Deng, Shen Yan, Haoqi Fan, Cihang Xie, Huaxiu Yao, Qinghao Ye
cs.AI
Abstract
Proponiamo MIRA, un nuovo benchmark progettato per valutare i modelli in scenari in cui la generazione di immagini visive intermedie è essenziale per un ragionamento efficace. A differenza dei metodi CoT tradizionali che si basano esclusivamente sul testo, i compiti in MIRA richiedono ai modelli di generare e utilizzare immagini intermedie - come schizzi, diagrammi strutturali o disegni di percorsi - per guidare il loro processo di ragionamento. Questa configurazione rispecchia fedelmente il modo in cui gli esseri umani risolvono problemi complessi attraverso il "disegnare per pensare". Per affrontare ciò, MIRA si concentra su compiti intrinsecamente impegnativi che coinvolgono strutture complesse, relazioni spaziali o passaggi di ragionamento difficili da esprimere solo tramite il linguaggio. Per garantire che i nostri dati di valutazione siano di alta qualità, includiamo 546 problemi multimodali, annotati con immagini visive intermedie e risposte finali. Proponiamo inoltre un protocollo di valutazione unificato per MIRA che si articola su tre livelli di input di valutazione: input diretto con solo immagine e domanda, input CoT solo testuale con immagine e prompt di pensiero, e input Visual-CoT con sia indizi visivi annotati che prompt di pensiero testuali. Per investigare il limite superiore della capacità dei modelli sul nostro benchmark, riportiamo anche le accuratezze pass@k e del voto di maggioranza sotto diverse impostazioni di k. I risultati sperimentali mostrano che gli attuali modelli linguistici multimodali di grandi dimensioni, inclusi i modelli privati più potenti e forti modelli open-weight, ottengono scarse performance quando si basano esclusivamente su prompt testuali. Tuttavia, quando vengono forniti indizi visivi intermedi, le prestazioni del modello migliorano costantemente, con un guadagno relativo medio del 33.7% su tutti i modelli e i compiti. Investigiamo inoltre il limite superiore espandendo lo spazio di ricerca e progettando prompt testuali allineati al Visual-CoT, ma entrambi gli approcci producono solo miglioramenti limitati rispetto alla nostra impostazione Visual-CoT. Questi risultati sottolineano il ruolo cruciale delle informazioni visive immaginate nel consentire un ragionamento efficace su MIRA.
English
We propose MIRA, a new benchmark designed to evaluate models in scenarios
where generating intermediate visual images is essential for successful
reasoning. Unlike traditional CoT methods that rely solely on text, tasks in
MIRA require models to generate and utilize intermediate images - such as
sketches, structural diagrams, or path drawings - to guide their reasoning
process. This setup closely mirrors how humans solve complex problems through
"drawing to think". To solve this, MIRA focuses on tasks that are intrinsically
challenging and involve complex structures, spatial relationships, or reasoning
steps that are difficult to express through language alone. To ensure that our
evaluation data is of high-quality, we include 546 multimodal problems,
annotated with intermediate visual images and final answers. We also propose a
unified evaluation protocol for MIRA that spans three levels of evaluation
input: direct input with image and question only, text-only CoT input with
image and thinking prompts, and Visual-CoT input with both annotated image
clues and textual thinking prompts. To probe the upper bound of model capacity
on our benchmark, we also report pass@k and majority voting accuracies under
different k settings. Experimental results show that existing multimodal large
language models, including strongest private models as well as strong
open-weight models, perform poorly when relying solely on textual prompts.
However, when intermediate visual cues are provided, model performance improves
consistently, yielding an average relative gain of 33.7% across all models and
tasks. We also probe the upper bound by expanding the search space and
designing textual prompts aligned with Visual-CoT, but both yield only limited
improvements compared to our Visual-CoT setting. These results underscore the
critical role of imagined visual information in enabling successful reasoning
on MIRA.