Quand la visualisation est la première étape du raisonnement : MIRA, un benchmark pour le raisonnement en chaîne visuel
When Visualizing is the First Step to Reasoning: MIRA, a Benchmark for Visual Chain-of-Thought
November 4, 2025
papers.authors: Yiyang Zhou, Haoqin Tu, Zijun Wang, Zeyu Wang, Niklas Muennighoff, Fan Nie, Yejin Choi, James Zou, Chaorui Deng, Shen Yan, Haoqi Fan, Cihang Xie, Huaxiu Yao, Qinghao Ye
cs.AI
papers.abstract
Nous proposons MIRA, un nouveau benchmark conçu pour évaluer les modèles dans des scénarios où la génération d'images visuelles intermédiaires est essentielle à un raisonnement réussi. Contrairement aux méthodes CoT traditionnelles qui reposent uniquement sur du texte, les tâches de MIRA exigent que les modèles génèrent et utilisent des images intermédiaires - telles que des croquis, des diagrammes structurels ou des tracés de chemin - pour guider leur processus de raisonnement. Cette configuration reflète étroitement la manière dont les humains résolvent des problèmes complexes en "dessinant pour réfléchir". Pour y parvenir, MIRA se concentre sur des tâches intrinsèquement difficiles, impliquant des structures complexes, des relations spatiales ou des étapes de raisonnement difficiles à exprimer par le langage seul. Pour garantir la haute qualité de nos données d'évaluation, nous incluons 546 problèmes multimodaux, annotés avec des images visuelles intermédiaires et des réponses finales. Nous proposons également un protocole d'évaluation unifié pour MIRA couvrant trois niveaux d'entrée d'évaluation : entrée directe (image et question uniquement), entrée CoT texte seul (image et invites de réflexion) et entrée Visual-CoT (indices visuels annotés et invites textuelles de réflexion). Pour sonder la limite supérieure des capacités des modèles sur notre benchmark, nous rapportons également les précisions pass@k et par vote majoritaire sous différents paramètres k. Les résultats expérimentaux montrent que les grands modèles de langage multimodaux existants, y compris les modèles privés les plus performants et les modèles open-weight solides, obtiennent de mauvais résultats lorsqu'ils reposent uniquement sur des invites textuelles. Cependant, lorsque des indices visuels intermédiaires sont fournis, les performances des modèles s'améliorent systématiquement, avec un gain relatif moyen de 33,7 % sur l'ensemble des modèles et des tâches. Nous explorons également la limite supérieure en élargissant l'espace de recherche et en concevant des invites textuelles alignées sur le Visual-CoT, mais ces deux approches n'apportent que des améliorations limitées par rapport à notre configuration Visual-CoT. Ces résultats soulignent le rôle crucial de l'information visuelle imaginée pour permettre un raisonnement réussi sur MIRA.
English
We propose MIRA, a new benchmark designed to evaluate models in scenarios
where generating intermediate visual images is essential for successful
reasoning. Unlike traditional CoT methods that rely solely on text, tasks in
MIRA require models to generate and utilize intermediate images - such as
sketches, structural diagrams, or path drawings - to guide their reasoning
process. This setup closely mirrors how humans solve complex problems through
"drawing to think". To solve this, MIRA focuses on tasks that are intrinsically
challenging and involve complex structures, spatial relationships, or reasoning
steps that are difficult to express through language alone. To ensure that our
evaluation data is of high-quality, we include 546 multimodal problems,
annotated with intermediate visual images and final answers. We also propose a
unified evaluation protocol for MIRA that spans three levels of evaluation
input: direct input with image and question only, text-only CoT input with
image and thinking prompts, and Visual-CoT input with both annotated image
clues and textual thinking prompts. To probe the upper bound of model capacity
on our benchmark, we also report pass@k and majority voting accuracies under
different k settings. Experimental results show that existing multimodal large
language models, including strongest private models as well as strong
open-weight models, perform poorly when relying solely on textual prompts.
However, when intermediate visual cues are provided, model performance improves
consistently, yielding an average relative gain of 33.7% across all models and
tasks. We also probe the upper bound by expanding the search space and
designing textual prompts aligned with Visual-CoT, but both yield only limited
improvements compared to our Visual-CoT setting. These results underscore the
critical role of imagined visual information in enabling successful reasoning
on MIRA.