MMSI-Bench: 다중 이미지 공간 지능을 위한 벤치마크
MMSI-Bench: A Benchmark for Multi-Image Spatial Intelligence
May 29, 2025
저자: Sihan Yang, Runsen Xu, Yiman Xie, Sizhe Yang, Mo Li, Jingli Lin, Chenming Zhu, Xiaochen Chen, Haodong Duan, Xiangyu Yue, Dahua Lin, Tai Wang, Jiangmiao Pang
cs.AI
초록
공간 지능은 복잡한 물리적 세계에서 작동하는 다중 모드 대형 언어 모델(MLLMs)에 필수적이다. 그러나 기존 벤치마크는 단일 이미지 관계만을 탐구하므로 실제 배포에서 요구되는 다중 이미지 공간 추론을 평가하지 못한다. 본 연구에서는 다중 이미지 공간 지능에 전념한 VQA 벤치마크인 MMSI-Bench를 소개한다. 6명의 3D 비전 연구자가 300시간 이상을 투자하여 120,000개 이상의 이미지에서 1,000개의 도전적이고 모호하지 않은 객관식 질문을 세심하게 제작하였으며, 각 질문은 신중하게 설계된 오답 선택지와 단계별 추론 과정과 짝을 이룬다. 우리는 광범위한 실험을 수행하고 34개의 오픈소스 및 독점 MLLMs를 철저히 평가하여, 가장 강력한 오픈소스 모델이 약 30%의 정확도를 달성하고 OpenAI의 o3 추론 모델이 40%에 도달하는 반면 인간은 97%의 점수를 기록하는 등 상당한 격차를 관찰하였다. 이러한 결과는 MMSI-Bench의 도전적인 특성과 향후 연구를 위한 상당한 여지를 강조한다. 주석이 달린 추론 과정을 활용하여, 우리는 또한 (1) 근거 오류, (2) 중복 매칭 및 장면 재구성 오류, (3) 상황 변환 추론 오류, (4) 공간 논리 오류 등 네 가지 주요 실패 모드를 진단하는 자동화된 오류 분석 파이프라인을 제공하여 다중 이미지 공간 지능을 발전시키기 위한 귀중한 통찰을 제공한다. 프로젝트 페이지: https://runsenxu.com/projects/MMSI_Bench.
English
Spatial intelligence is essential for multimodal large language models
(MLLMs) operating in the complex physical world. Existing benchmarks, however,
probe only single-image relations and thus fail to assess the multi-image
spatial reasoning that real-world deployments demand. We introduce MMSI-Bench,
a VQA benchmark dedicated to multi-image spatial intelligence. Six 3D-vision
researchers spent more than 300 hours meticulously crafting 1,000 challenging,
unambiguous multiple-choice questions from over 120,000 images, each paired
with carefully designed distractors and a step-by-step reasoning process. We
conduct extensive experiments and thoroughly evaluate 34 open-source and
proprietary MLLMs, observing a wide gap: the strongest open-source model
attains roughly 30% accuracy and OpenAI's o3 reasoning model reaches 40%, while
humans score 97%. These results underscore the challenging nature of MMSI-Bench
and the substantial headroom for future research. Leveraging the annotated
reasoning processes, we also provide an automated error analysis pipeline that
diagnoses four dominant failure modes, including (1) grounding errors, (2)
overlap-matching and scene-reconstruction errors, (3) situation-transformation
reasoning errors, and (4) spatial-logic errors, offering valuable insights for
advancing multi-image spatial intelligence. Project page:
https://runsenxu.com/projects/MMSI_Bench .