Когда визуализация становится первым шагом к рассуждению: MIRA, эталонный набор данных для визуальной цепочки мыслей
When Visualizing is the First Step to Reasoning: MIRA, a Benchmark for Visual Chain-of-Thought
November 4, 2025
Авторы: Yiyang Zhou, Haoqin Tu, Zijun Wang, Zeyu Wang, Niklas Muennighoff, Fan Nie, Yejin Choi, James Zou, Chaorui Deng, Shen Yan, Haoqi Fan, Cihang Xie, Huaxiu Yao, Qinghao Ye
cs.AI
Аннотация
Мы представляем MIRA — новый бенчмарк, разработанный для оценки моделей в сценариях, где генерация промежуточных визуальных изображений необходима для успешного рассуждения. В отличие от традиционных методов CoT, которые полагаются исключительно на текст, задачи в MIRA требуют от моделей генерации и использования промежуточных изображений — таких как эскизы, структурные диаграммы или схемы путей — для направления процесса рассуждений. Эта настройка близко отражает то, как люди решают сложные проблемы через «рисование для размышления». Для решения этой задачи MIRA фокусируется на проблемах, которые по своей природе сложны и включают комплексные структуры, пространственные отношения или шаги рассуждений, которые трудно выразить только языком. Чтобы обеспечить высокое качество данных для оценки, мы включили 546 мультимодальных задач, аннотированных промежуточными визуальными изображениями и конечными ответами. Мы также предлагаем унифицированный протокол оценки для MIRA, охватывающий три уровня входных данных для оценки: прямой ввод только с изображением и вопросом, текстовый CoT-ввод с изображением и подсказками для размышления, а также Visual-CoT ввод с аннотированными визуальными подсказками и текстовыми подсказками для размышления. Чтобы исследовать верхнюю границу возможностей моделей в нашем бенчмарке, мы также сообщаем о точности pass@k и мажоритарного голосования при различных значениях k. Результаты экспериментов показывают, что существующие мультимодальные большие языковые модели, включая наиболее мощные частные модели, а также сильные модели с открытыми весами, демонстрируют низкую производительность при использовании только текстовых подсказок. Однако при предоставлении промежуточных визуальных подсказок производительность моделей последовательно улучшается, давая средний относительный прирост в 33,7% по всем моделям и задачам. Мы также исследуем верхнюю границу, расширяя пространство поиска и разрабатывая текстовые подсказки, согласованные с Visual-CoT, но оба подхода дают лишь ограниченное улучшение по сравнению с нашей настройкой Visual-CoT. Эти результаты подчеркивают критическую роль воображаемой визуальной информации для успешного рассуждения в MIRA.
English
We propose MIRA, a new benchmark designed to evaluate models in scenarios
where generating intermediate visual images is essential for successful
reasoning. Unlike traditional CoT methods that rely solely on text, tasks in
MIRA require models to generate and utilize intermediate images - such as
sketches, structural diagrams, or path drawings - to guide their reasoning
process. This setup closely mirrors how humans solve complex problems through
"drawing to think". To solve this, MIRA focuses on tasks that are intrinsically
challenging and involve complex structures, spatial relationships, or reasoning
steps that are difficult to express through language alone. To ensure that our
evaluation data is of high-quality, we include 546 multimodal problems,
annotated with intermediate visual images and final answers. We also propose a
unified evaluation protocol for MIRA that spans three levels of evaluation
input: direct input with image and question only, text-only CoT input with
image and thinking prompts, and Visual-CoT input with both annotated image
clues and textual thinking prompts. To probe the upper bound of model capacity
on our benchmark, we also report pass@k and majority voting accuracies under
different k settings. Experimental results show that existing multimodal large
language models, including strongest private models as well as strong
open-weight models, perform poorly when relying solely on textual prompts.
However, when intermediate visual cues are provided, model performance improves
consistently, yielding an average relative gain of 33.7% across all models and
tasks. We also probe the upper bound by expanding the search space and
designing textual prompts aligned with Visual-CoT, but both yield only limited
improvements compared to our Visual-CoT setting. These results underscore the
critical role of imagined visual information in enabling successful reasoning
on MIRA.