ChatPaper.aiChatPaper

Wenn Visualisieren der erste Schritt zum Denken ist: MIRA, ein Benchmark für visuelle Denkketten

When Visualizing is the First Step to Reasoning: MIRA, a Benchmark for Visual Chain-of-Thought

November 4, 2025
papers.authors: Yiyang Zhou, Haoqin Tu, Zijun Wang, Zeyu Wang, Niklas Muennighoff, Fan Nie, Yejin Choi, James Zou, Chaorui Deng, Shen Yan, Haoqi Fan, Cihang Xie, Huaxiu Yao, Qinghao Ye
cs.AI

papers.abstract

Wir stellen MIRA vor, einen neuen Benchmark, der entwickelt wurde, um Modelle in Szenarien zu evaluieren, in denen die Erzeugung intermediärer visueller Bilder für erfolgreiches Schließen entscheidend ist. Im Gegensatz zu traditionellen CoT-Methoden (Chain of Thought), die sich ausschließlich auf Text stützen, erfordern Aufgaben in MIRA, dass Modelle Zwischenbilder – wie Skizzen, Strukturdiagramme oder Wegzeichnungen – generieren und nutzen, um ihren Denkprozess zu steuern. Dieser Aufbau spiegelt eng wider, wie Menschen komplexe Probleme durch „Denken durch Zeichnen“ lösen. Um dies zu adressieren, konzentriert sich MIRA auf Aufgaben, die intrinsisch anspruchsvoll sind und komplexe Strukturen, räumliche Beziehungen oder Denkschritte beinhalten, die sich schwer allein durch Sprache ausdrücken lassen. Um sicherzustellen, dass unsere Evaluationsdaten von hoher Qualität sind, beinhalten wir 546 multimodale Probleme, die mit intermediären visuellen Bildern und finalen Antworten annotiert sind. Wir schlagen zudem ein einheitliches Evaluationsprotokoll für MIRA vor, das drei Stufen von Evaluationsinput umspannt: Direktinput nur mit Bild und Frage, Text-only-CoT-Input mit Bild und Denkanstößen sowie Visual-CoT-Input mit sowohl annotierten Bildhinweisen als auch textuellen Denkanstößen. Um die Obergrenze der Modellkapazität auf unserem Benchmark auszuloten, berichten wir auch Pass@k- und Mehrheitsentscheidungs-Genauigkeiten unter verschiedenen k-Einstellungen. Experimentelle Ergebnisse zeigen, dass existierende multimodale Large Language Models, einschließlich der stärksten privaten Modelle sowie starker Open-Weight-Modelle, schlecht abschneiden, wenn sie sich ausschließlich auf textuelle Prompts verlassen. Werden jedoch intermediäre visuelle Hinweise bereitgestellt, verbessert sich die Modellleistung konsistent und erzielt einen durchschnittlichen relativen Zuwachs von 33,7 % über alle Modelle und Aufgaben hinweg. Wir loten die Obergrenze auch aus, indem wir den Suchraum erweitern und textuelle Prompts entwerfen, die mit Visual-CoT abgestimmt sind, doch beide Ansätze bringen nur begrenzte Verbesserungen im Vergleich zu unserer Visual-CoT-Einstellung. Diese Ergebnisse unterstreichen die kritische Rolle von vorgestellten visuellen Informationen für erfolgreiches Schließen in MIRA.
English
We propose MIRA, a new benchmark designed to evaluate models in scenarios where generating intermediate visual images is essential for successful reasoning. Unlike traditional CoT methods that rely solely on text, tasks in MIRA require models to generate and utilize intermediate images - such as sketches, structural diagrams, or path drawings - to guide their reasoning process. This setup closely mirrors how humans solve complex problems through "drawing to think". To solve this, MIRA focuses on tasks that are intrinsically challenging and involve complex structures, spatial relationships, or reasoning steps that are difficult to express through language alone. To ensure that our evaluation data is of high-quality, we include 546 multimodal problems, annotated with intermediate visual images and final answers. We also propose a unified evaluation protocol for MIRA that spans three levels of evaluation input: direct input with image and question only, text-only CoT input with image and thinking prompts, and Visual-CoT input with both annotated image clues and textual thinking prompts. To probe the upper bound of model capacity on our benchmark, we also report pass@k and majority voting accuracies under different k settings. Experimental results show that existing multimodal large language models, including strongest private models as well as strong open-weight models, perform poorly when relying solely on textual prompts. However, when intermediate visual cues are provided, model performance improves consistently, yielding an average relative gain of 33.7% across all models and tasks. We also probe the upper bound by expanding the search space and designing textual prompts aligned with Visual-CoT, but both yield only limited improvements compared to our Visual-CoT setting. These results underscore the critical role of imagined visual information in enabling successful reasoning on MIRA.
PDF562December 2, 2025