Wanneer visualiseren de eerste stap is naar redeneren: MIRA, een benchmark voor visuele denkketens
When Visualizing is the First Step to Reasoning: MIRA, a Benchmark for Visual Chain-of-Thought
November 4, 2025
Auteurs: Yiyang Zhou, Haoqin Tu, Zijun Wang, Zeyu Wang, Niklas Muennighoff, Fan Nie, Yejin Choi, James Zou, Chaorui Deng, Shen Yan, Haoqi Fan, Cihang Xie, Huaxiu Yao, Qinghao Ye
cs.AI
Samenvatting
Wij presenteren MIRA, een nieuwe benchmark die is ontworpen om modellen te evalueren in scenario's waarbij het genereren van tussenliggende visuele beelden essentieel is voor succesvol redeneren. In tegenstelling tot traditionele CoT-methoden die uitsluitend op tekst vertrouwen, vereisen taken in MIRA dat modellen tussenliggende beelden - zoals schetsen, structurele diagrammen of padtekeningen - genereren en gebruiken om hun redeneerproces te sturen. Deze opzet weerspiegelt nauwkeurig hoe mensen complexe problemen oplossen door "tekenend te denken". Om dit aan te pakken, richt MIRA zich op taken die intrinsiek uitdagend zijn en complexe structuren, ruimtelijke relaties of redeneerstappen omvatten die moeilijk uitsluitend via taal uit te drukken zijn. Om te waarborgen dat onze evaluatiedata van hoge kwaliteit is, omvatten we 546 multimodale problemen, geannoteerd met tussenliggende visuele beelden en finale antwoorden. Wij stellen ook een gestandaardiseerd evaluatieprotocol voor MIRA voor dat drie niveaus van evaluatie-input omvat: directe input met alleen beeld en vraag, tekstuele CoT-input met beeld en denkprompts, en Visuele-CoT-input met zowel geannoteerde beeldaanwijzingen als tekstuele denkprompts. Om de bovengrens van modelcapaciteit op onze benchmark te onderzoeken, rapporteren we ook pass@k- en meerderheidsstemmingsnauwkeurigheden onder verschillende k-instellingen. Experimentele resultaten tonen aan dat bestaande multimodale grote taalmodellen, inclusief de sterkste private modellen en sterke open-weight modellen, slecht presteren wanneer ze uitsluitend op tekstuele prompts vertrouwen. Wanneer echter tussenliggende visuele aanwijzingen worden verstrekt, verbetert de modelprestatie consistent, met een gemiddelde relatieve winst van 33,7% over alle modellen en taken heen. We onderzoeken ook de bovengrens door de zoekruimte uit te breiden en tekstuele prompts te ontwerpen die zijn afgestemd op Visuele-CoT, maar beide leveren slechts beperkte verbeteringen op vergeleken met onze Visuele-CoT-instelling. Deze resultaten onderstrepen de cruciale rol van verbeeld visuele informatie bij het mogelijk maken van succesvol redeneren op MIRA.
English
We propose MIRA, a new benchmark designed to evaluate models in scenarios
where generating intermediate visual images is essential for successful
reasoning. Unlike traditional CoT methods that rely solely on text, tasks in
MIRA require models to generate and utilize intermediate images - such as
sketches, structural diagrams, or path drawings - to guide their reasoning
process. This setup closely mirrors how humans solve complex problems through
"drawing to think". To solve this, MIRA focuses on tasks that are intrinsically
challenging and involve complex structures, spatial relationships, or reasoning
steps that are difficult to express through language alone. To ensure that our
evaluation data is of high-quality, we include 546 multimodal problems,
annotated with intermediate visual images and final answers. We also propose a
unified evaluation protocol for MIRA that spans three levels of evaluation
input: direct input with image and question only, text-only CoT input with
image and thinking prompts, and Visual-CoT input with both annotated image
clues and textual thinking prompts. To probe the upper bound of model capacity
on our benchmark, we also report pass@k and majority voting accuracies under
different k settings. Experimental results show that existing multimodal large
language models, including strongest private models as well as strong
open-weight models, perform poorly when relying solely on textual prompts.
However, when intermediate visual cues are provided, model performance improves
consistently, yielding an average relative gain of 33.7% across all models and
tasks. We also probe the upper bound by expanding the search space and
designing textual prompts aligned with Visual-CoT, but both yield only limited
improvements compared to our Visual-CoT setting. These results underscore the
critical role of imagined visual information in enabling successful reasoning
on MIRA.