Wenn Visualisieren der erste Schritt zum Denken ist: MIRA, ein Benchmark für visuelle Denkketten
When Visualizing is the First Step to Reasoning: MIRA, a Benchmark for Visual Chain-of-Thought
November 4, 2025
papers.authors: Yiyang Zhou, Haoqin Tu, Zijun Wang, Zeyu Wang, Niklas Muennighoff, Fan Nie, Yejin Choi, James Zou, Chaorui Deng, Shen Yan, Haoqi Fan, Cihang Xie, Huaxiu Yao, Qinghao Ye
cs.AI
papers.abstract
Wir stellen MIRA vor, einen neuen Benchmark, der entwickelt wurde, um Modelle in Szenarien zu evaluieren, in denen die Erzeugung intermediärer visueller Bilder für erfolgreiches Schließen entscheidend ist. Im Gegensatz zu traditionellen CoT-Methoden (Chain of Thought), die sich ausschließlich auf Text stützen, erfordern Aufgaben in MIRA, dass Modelle Zwischenbilder – wie Skizzen, Strukturdiagramme oder Wegzeichnungen – generieren und nutzen, um ihren Denkprozess zu steuern. Dieser Aufbau spiegelt eng wider, wie Menschen komplexe Probleme durch „Denken durch Zeichnen“ lösen. Um dies zu adressieren, konzentriert sich MIRA auf Aufgaben, die intrinsisch anspruchsvoll sind und komplexe Strukturen, räumliche Beziehungen oder Denkschritte beinhalten, die sich schwer allein durch Sprache ausdrücken lassen. Um sicherzustellen, dass unsere Evaluationsdaten von hoher Qualität sind, beinhalten wir 546 multimodale Probleme, die mit intermediären visuellen Bildern und finalen Antworten annotiert sind. Wir schlagen zudem ein einheitliches Evaluationsprotokoll für MIRA vor, das drei Stufen von Evaluationsinput umspannt: Direktinput nur mit Bild und Frage, Text-only-CoT-Input mit Bild und Denkanstößen sowie Visual-CoT-Input mit sowohl annotierten Bildhinweisen als auch textuellen Denkanstößen. Um die Obergrenze der Modellkapazität auf unserem Benchmark auszuloten, berichten wir auch Pass@k- und Mehrheitsentscheidungs-Genauigkeiten unter verschiedenen k-Einstellungen. Experimentelle Ergebnisse zeigen, dass existierende multimodale Large Language Models, einschließlich der stärksten privaten Modelle sowie starker Open-Weight-Modelle, schlecht abschneiden, wenn sie sich ausschließlich auf textuelle Prompts verlassen. Werden jedoch intermediäre visuelle Hinweise bereitgestellt, verbessert sich die Modellleistung konsistent und erzielt einen durchschnittlichen relativen Zuwachs von 33,7 % über alle Modelle und Aufgaben hinweg. Wir loten die Obergrenze auch aus, indem wir den Suchraum erweitern und textuelle Prompts entwerfen, die mit Visual-CoT abgestimmt sind, doch beide Ansätze bringen nur begrenzte Verbesserungen im Vergleich zu unserer Visual-CoT-Einstellung. Diese Ergebnisse unterstreichen die kritische Rolle von vorgestellten visuellen Informationen für erfolgreiches Schließen in MIRA.
English
We propose MIRA, a new benchmark designed to evaluate models in scenarios
where generating intermediate visual images is essential for successful
reasoning. Unlike traditional CoT methods that rely solely on text, tasks in
MIRA require models to generate and utilize intermediate images - such as
sketches, structural diagrams, or path drawings - to guide their reasoning
process. This setup closely mirrors how humans solve complex problems through
"drawing to think". To solve this, MIRA focuses on tasks that are intrinsically
challenging and involve complex structures, spatial relationships, or reasoning
steps that are difficult to express through language alone. To ensure that our
evaluation data is of high-quality, we include 546 multimodal problems,
annotated with intermediate visual images and final answers. We also propose a
unified evaluation protocol for MIRA that spans three levels of evaluation
input: direct input with image and question only, text-only CoT input with
image and thinking prompts, and Visual-CoT input with both annotated image
clues and textual thinking prompts. To probe the upper bound of model capacity
on our benchmark, we also report pass@k and majority voting accuracies under
different k settings. Experimental results show that existing multimodal large
language models, including strongest private models as well as strong
open-weight models, perform poorly when relying solely on textual prompts.
However, when intermediate visual cues are provided, model performance improves
consistently, yielding an average relative gain of 33.7% across all models and
tasks. We also probe the upper bound by expanding the search space and
designing textual prompts aligned with Visual-CoT, but both yield only limited
improvements compared to our Visual-CoT setting. These results underscore the
critical role of imagined visual information in enabling successful reasoning
on MIRA.