ChatPaper.aiChatPaper

視覚化が推論への第一歩となる時:MIRA、視覚的思考チェーンのベンチマーク

When Visualizing is the First Step to Reasoning: MIRA, a Benchmark for Visual Chain-of-Thought

November 4, 2025
著者: Yiyang Zhou, Haoqin Tu, Zijun Wang, Zeyu Wang, Niklas Muennighoff, Fan Nie, Yejin Choi, James Zou, Chaorui Deng, Shen Yan, Haoqi Fan, Cihang Xie, Huaxiu Yao, Qinghao Ye
cs.AI

要旨

我々はMIRAを提案する。これは、推論を成功させるために中間的な視覚的画像の生成が不可欠なシナリオでモデルを評価するための新しいベンチマークである。従来のテキストのみに依存するCoT(連鎖的思考)手法とは異なり、MIRAのタスクでは、モデルがスケッチ、構造図、経路図などの中間画像を生成し、それを推論プロセスのガイドとして利用することが求められる。この設定は、人間が「描いて考える」ことで複雑な問題を解決する方法に極めて近い。MIRAは本質的に困難で、複雑な構造や空間的関係、言語だけでは表現が難しい推論ステップを含むタスクに焦点を当てている。評価データの高品質化を図るため、546のマルチモーダル問題に、中間視覚画像と最終解答を付与した。さらに、MIRAに対する統一的な評価プロトコルを提案する。これは、画像と質問のみを直接入力する評価、画像と思考プロンプトを付与したテキストのみのCoT入力、注釈付き画像の手がかりとテキストの思考プロンプトの両方を含むVisual-CoT入力という、3つの評価入力レベルにわたる。ベンチマークにおけるモデル能力の上限を探るため、異なるk設定におけるpass@kと多数決による正解率も報告する。実験結果から、最も強力な非公開モデルや優れたオープンウェイトモデルを含む既存のマルチモーダル大規模言語モデルは、テキストプロンプトのみに依存した場合、成績が低いことが示された。しかし、中間的な視覚的手がかりが提供されると、モデルの性能は一貫して向上し、全モデルと全タスクで平均33.7%の相対的改善が得られた。また、探索空間を拡大し、Visual-CoTに沿ったテキストプロンプトを設計することで上限を探ったが、いずれも我々のVisual-CoT設定と比べて改善は限定的であった。これらの結果は、MIRAでの推論を成功させる上で、想像された視覚情報が決定的に重要であることを強く示唆している。
English
We propose MIRA, a new benchmark designed to evaluate models in scenarios where generating intermediate visual images is essential for successful reasoning. Unlike traditional CoT methods that rely solely on text, tasks in MIRA require models to generate and utilize intermediate images - such as sketches, structural diagrams, or path drawings - to guide their reasoning process. This setup closely mirrors how humans solve complex problems through "drawing to think". To solve this, MIRA focuses on tasks that are intrinsically challenging and involve complex structures, spatial relationships, or reasoning steps that are difficult to express through language alone. To ensure that our evaluation data is of high-quality, we include 546 multimodal problems, annotated with intermediate visual images and final answers. We also propose a unified evaluation protocol for MIRA that spans three levels of evaluation input: direct input with image and question only, text-only CoT input with image and thinking prompts, and Visual-CoT input with both annotated image clues and textual thinking prompts. To probe the upper bound of model capacity on our benchmark, we also report pass@k and majority voting accuracies under different k settings. Experimental results show that existing multimodal large language models, including strongest private models as well as strong open-weight models, perform poorly when relying solely on textual prompts. However, when intermediate visual cues are provided, model performance improves consistently, yielding an average relative gain of 33.7% across all models and tasks. We also probe the upper bound by expanding the search space and designing textual prompts aligned with Visual-CoT, but both yield only limited improvements compared to our Visual-CoT setting. These results underscore the critical role of imagined visual information in enabling successful reasoning on MIRA.
PDF562December 2, 2025