Cuando la visualización es el primer paso hacia el razonamiento: MIRA, un punto de referencia para la cadena de pensamiento visual
When Visualizing is the First Step to Reasoning: MIRA, a Benchmark for Visual Chain-of-Thought
November 4, 2025
Autores: Yiyang Zhou, Haoqin Tu, Zijun Wang, Zeyu Wang, Niklas Muennighoff, Fan Nie, Yejin Choi, James Zou, Chaorui Deng, Shen Yan, Haoqi Fan, Cihang Xie, Huaxiu Yao, Qinghao Ye
cs.AI
Resumen
Proponemos MIRA, un nuevo benchmark diseñado para evaluar modelos en escenarios donde la generación de imágenes visuales intermedias es esencial para un razonamiento exitoso. A diferencia de los métodos CoT tradicionales que se basan únicamente en texto, las tareas en MIRA requieren que los modelos generen y utilicen imágenes intermedias —como bocetos, diagramas estructurales o dibujos de trayectorias— para guiar su proceso de razonamiento. Esta configuración refleja fielmente cómo los humanos resuelven problemas complejos mediante el "dibujar para pensar". Para abordar esto, MIRA se centra en tareas intrínsecamente desafiantes que implican estructuras complejas, relaciones espaciales o pasos de razonamiento difíciles de expresar únicamente mediante el lenguaje. Para garantizar que nuestros datos de evaluación sean de alta calidad, incluimos 546 problemas multimodales, anotados con imágenes visuales intermedias y respuestas finales. También proponemos un protocolo de evaluación unificado para MIRA que abarca tres niveles de entrada de evaluación: entrada directa con solo imagen y pregunta, entrada CoT solo de texto con imagen y sugerencias de pensamiento, y entrada Visual-CoT con tanto pistas de imagen anotadas como sugerencias de pensamiento textual. Para explorar el límite superior de la capacidad de los modelos en nuestro benchmark, también reportamos las precisiones pass@k y de votación mayoritaria bajo diferentes configuraciones de k. Los resultados experimentales muestran que los modelos lingüísticos grandes multimodales existentes, incluidos los modelos privados más potentes y los modelos de código abierto más sólidos, tienen un rendimiento deficiente cuando dependen únicamente de indicaciones textuales. Sin embargo, cuando se proporcionan pistas visuales intermedias, el rendimiento del modelo mejora consistentemente, produciendo una ganancia relativa promedio del 33.7% en todos los modelos y tareas. También exploramos el límite superior expandiendo el espacio de búsqueda y diseñando indicaciones textuales alineadas con Visual-CoT, pero ambas estrategias produjeron solo mejoras limitadas en comparación con nuestra configuración Visual-CoT. Estos resultados subrayan el papel crítico de la información visual imaginada para permitir un razonamiento exitoso en MIRA.
English
We propose MIRA, a new benchmark designed to evaluate models in scenarios
where generating intermediate visual images is essential for successful
reasoning. Unlike traditional CoT methods that rely solely on text, tasks in
MIRA require models to generate and utilize intermediate images - such as
sketches, structural diagrams, or path drawings - to guide their reasoning
process. This setup closely mirrors how humans solve complex problems through
"drawing to think". To solve this, MIRA focuses on tasks that are intrinsically
challenging and involve complex structures, spatial relationships, or reasoning
steps that are difficult to express through language alone. To ensure that our
evaluation data is of high-quality, we include 546 multimodal problems,
annotated with intermediate visual images and final answers. We also propose a
unified evaluation protocol for MIRA that spans three levels of evaluation
input: direct input with image and question only, text-only CoT input with
image and thinking prompts, and Visual-CoT input with both annotated image
clues and textual thinking prompts. To probe the upper bound of model capacity
on our benchmark, we also report pass@k and majority voting accuracies under
different k settings. Experimental results show that existing multimodal large
language models, including strongest private models as well as strong
open-weight models, perform poorly when relying solely on textual prompts.
However, when intermediate visual cues are provided, model performance improves
consistently, yielding an average relative gain of 33.7% across all models and
tasks. We also probe the upper bound by expanding the search space and
designing textual prompts aligned with Visual-CoT, but both yield only limited
improvements compared to our Visual-CoT setting. These results underscore the
critical role of imagined visual information in enabling successful reasoning
on MIRA.