Quando a Visualização é o Primeiro Passo para o Raciocínio: MIRA, um Benchmark para Cadeia de Pensamento Visual
When Visualizing is the First Step to Reasoning: MIRA, a Benchmark for Visual Chain-of-Thought
November 4, 2025
Autores: Yiyang Zhou, Haoqin Tu, Zijun Wang, Zeyu Wang, Niklas Muennighoff, Fan Nie, Yejin Choi, James Zou, Chaorui Deng, Shen Yan, Haoqi Fan, Cihang Xie, Huaxiu Yao, Qinghao Ye
cs.AI
Resumo
Propomos o MIRA, um novo benchmark projetado para avaliar modelos em cenários onde a geração de imagens visuais intermediárias é essencial para o raciocínio bem-sucedido. Diferente dos métodos tradicionais de Cadeia de Pensamento (CoT) que dependem exclusivamente de texto, as tarefas no MIRA exigem que os modelos gerem e utilizem imagens intermediárias - como esboços, diagramas estruturais ou desenhos de trajetórias - para orientar seu processo de raciocínio. Essa configuração espelha de perto como os humanos resolvem problemas complexos por meio do "desenhar para pensar". Para resolver isso, o MIRA concentra-se em tarefas intrinsecamente desafiadoras e que envolvem estruturas complexas, relações espaciais ou etapas de raciocínio difíceis de expressar apenas por linguagem. Para garantir que nossos dados de avaliação sejam de alta qualidade, incluímos 546 problemas multimodais, anotados com imagens visuais intermediárias e respostas finais. Também propomos um protocolo de avaliação unificado para o MIRA que abrange três níveis de entrada de avaliação: entrada direta (apenas com imagem e pergunta), entrada CoT apenas textual (com imagem e prompts de pensamento) e entrada CoT Visual (com pistas de imagem anotadas e prompts de pensamento textuais). Para investigar o limite superior da capacidade do modelo em nosso benchmark, também relatamos as acurácias pass@k e de votação majoritária sob diferentes configurações de k. Os resultados experimentais mostram que os modelos de linguagem grandes multimodais existentes, incluindo os modelos privados mais fortes, bem como modelos de pesos abertos robustos, têm desempenho ruim ao depender apenas de prompts textuais. No entanto, quando pistas visuais intermediárias são fornecidas, o desempenho do modelo melhora consistentemente, resultando em um ganho relativo médio de 33,7% em todos os modelos e tarefas. Também investigamos o limite superior expandindo o espaço de busca e projetando prompts textuais alinhados com o CoT Visual, mas ambas as abordagens produzem apenas melhorias limitadas em comparação com nossa configuração de CoT Visual. Esses resultados ressaltam o papel crítico da informação visual imaginada para permitir um raciocínio bem-sucedido no MIRA.
English
We propose MIRA, a new benchmark designed to evaluate models in scenarios
where generating intermediate visual images is essential for successful
reasoning. Unlike traditional CoT methods that rely solely on text, tasks in
MIRA require models to generate and utilize intermediate images - such as
sketches, structural diagrams, or path drawings - to guide their reasoning
process. This setup closely mirrors how humans solve complex problems through
"drawing to think". To solve this, MIRA focuses on tasks that are intrinsically
challenging and involve complex structures, spatial relationships, or reasoning
steps that are difficult to express through language alone. To ensure that our
evaluation data is of high-quality, we include 546 multimodal problems,
annotated with intermediate visual images and final answers. We also propose a
unified evaluation protocol for MIRA that spans three levels of evaluation
input: direct input with image and question only, text-only CoT input with
image and thinking prompts, and Visual-CoT input with both annotated image
clues and textual thinking prompts. To probe the upper bound of model capacity
on our benchmark, we also report pass@k and majority voting accuracies under
different k settings. Experimental results show that existing multimodal large
language models, including strongest private models as well as strong
open-weight models, perform poorly when relying solely on textual prompts.
However, when intermediate visual cues are provided, model performance improves
consistently, yielding an average relative gain of 33.7% across all models and
tasks. We also probe the upper bound by expanding the search space and
designing textual prompts aligned with Visual-CoT, but both yield only limited
improvements compared to our Visual-CoT setting. These results underscore the
critical role of imagined visual information in enabling successful reasoning
on MIRA.