시각화가 추론의 첫걸음일 때: 시각적 사고 사슬 벤치마크 MIRA
When Visualizing is the First Step to Reasoning: MIRA, a Benchmark for Visual Chain-of-Thought
November 4, 2025
저자: Yiyang Zhou, Haoqin Tu, Zijun Wang, Zeyu Wang, Niklas Muennighoff, Fan Nie, Yejin Choi, James Zou, Chaorui Deng, Shen Yan, Haoqi Fan, Cihang Xie, Huaxiu Yao, Qinghao Ye
cs.AI
초록
우리는 중간 시각 이미지 생성이 성공적인 추론에 필수적인 시나리오에서 모델을 평가하기 위해 설계된 새로운 벤치마크 MIRA를 제안합니다. 텍스트만 의존하는 기존 CoT(Chain of Thought) 방법과 달리, MIRA의 과제들은 모델이 스케치, 구조도, 경로 그림과 같은 중간 이미지를 생성하고 활용하여 추론 과정을 안내하도록 요구합니다. 이 설정은 인간이 "생각을 위해 그리기" 방식으로 복잡한 문제를 해결하는 방식을 충실히 반영합니다. 이를 해결하기 위해 MIRA는 본질적으로 어렵고 복잡한 구조, 공간 관계, 또는 언어만으로 표현하기 어려운 추론 단계를 포함하는 과제에 중점을 둡니다. 평가 데이터의 높은 품질을 보장하기 위해 중간 시각 이미지와 최종 답변이 주석 처리된 546개의 다중모드 문제를 포함했습니다. 또한 MIRA를 위한 통합 평가 프로토콜을 제안하며, 이는 이미지와 질문만 있는 직접 입력, 이미지와 사고 프롬프트가 포함된 텍스트 전용 CoT 입력, 주석 처리된 이미지 단서와 텍스트 사고 프롬프트를 모두 포함하는 Visual-CoT 입력이라는 세 가지 평가 입력 수준을 아우릅니다. 벤치마크 상의 모델 성능 상한을 탐구하기 위해 다양한 k 설정에서의 pass@k 및 다수결 투표 정확도도 보고합니다. 실험 결과에 따르면, 가장 강력한 비공개 모델과 강력한 오픈 가중치 모델을 포함한 기존 다중모드 대규모 언어 모델들은 텍스트 프롬프트만 의존할 때 성능이 저조했습니다. 그러나 중간 시각 단서가 제공되면 모델 성능이 일관되게 개선되어 모든 모델과 과제에서 평균 33.7%의 상대적 향상을 보였습니다. 또한 검색 공간을 확장하고 Visual-CoT와 일치하는 텍스트 프롬프트를 설계하여 상한을 탐구했으나, 둘 다 우리의 Visual-CoT 설정에 비해 제한된 개선만을 가져왔습니다. 이러한 결과는 MIRA에서 성공적인 추론을 가능하게 하는 데 있어 상상된 시각 정보의 중요성을 강조합니다.
English
We propose MIRA, a new benchmark designed to evaluate models in scenarios
where generating intermediate visual images is essential for successful
reasoning. Unlike traditional CoT methods that rely solely on text, tasks in
MIRA require models to generate and utilize intermediate images - such as
sketches, structural diagrams, or path drawings - to guide their reasoning
process. This setup closely mirrors how humans solve complex problems through
"drawing to think". To solve this, MIRA focuses on tasks that are intrinsically
challenging and involve complex structures, spatial relationships, or reasoning
steps that are difficult to express through language alone. To ensure that our
evaluation data is of high-quality, we include 546 multimodal problems,
annotated with intermediate visual images and final answers. We also propose a
unified evaluation protocol for MIRA that spans three levels of evaluation
input: direct input with image and question only, text-only CoT input with
image and thinking prompts, and Visual-CoT input with both annotated image
clues and textual thinking prompts. To probe the upper bound of model capacity
on our benchmark, we also report pass@k and majority voting accuracies under
different k settings. Experimental results show that existing multimodal large
language models, including strongest private models as well as strong
open-weight models, perform poorly when relying solely on textual prompts.
However, when intermediate visual cues are provided, model performance improves
consistently, yielding an average relative gain of 33.7% across all models and
tasks. We also probe the upper bound by expanding the search space and
designing textual prompts aligned with Visual-CoT, but both yield only limited
improvements compared to our Visual-CoT setting. These results underscore the
critical role of imagined visual information in enabling successful reasoning
on MIRA.