MMSI-Bench: マルチイメージ空間知能のためのベンチマーク
MMSI-Bench: A Benchmark for Multi-Image Spatial Intelligence
May 29, 2025
著者: Sihan Yang, Runsen Xu, Yiman Xie, Sizhe Yang, Mo Li, Jingli Lin, Chenming Zhu, Xiaochen Chen, Haodong Duan, Xiangyu Yue, Dahua Lin, Tai Wang, Jiangmiao Pang
cs.AI
要旨
空間知能は、複雑な物理世界で動作するマルチモーダル大規模言語モデル(MLLMs)にとって不可欠である。しかし、既存のベンチマークは単一画像の関係性のみを探るものであり、実世界での展開に求められる複数画像の空間推論を評価するには不十分である。本論文では、複数画像の空間知能に特化したVQAベンチマークであるMMSI-Benchを紹介する。6名の3D視覚研究者が300時間以上を費やし、12万枚以上の画像から1,000の挑戦的で曖昧さのない多肢選択問題を慎重に作成し、それぞれに注意深く設計されたディストラクタと段階的な推論プロセスを組み合わせた。我々は広範な実験を行い、34のオープンソースおよびプロプライエタリなMLLMsを徹底的に評価し、大きなギャップを観察した:最も強力なオープンソースモデルは約30%の精度を達成し、OpenAIのo3推論モデルは40%に達する一方で、人間のスコアは97%であった。これらの結果は、MMSI-Benchの難易度の高さと、今後の研究における大きな改善余地を示している。注釈付きの推論プロセスを活用し、我々は自動化されたエラー分析パイプラインも提供する。このパイプラインは、(1) グラウンディングエラー、(2) オーバーラップマッチングおよびシーン再構築エラー、(3) 状況変換推論エラー、(4) 空間論理エラーの4つの主要な失敗モードを診断し、複数画像の空間知能を進歩させるための貴重な洞察を提供する。プロジェクトページ: https://runsenxu.com/projects/MMSI_Bench
English
Spatial intelligence is essential for multimodal large language models
(MLLMs) operating in the complex physical world. Existing benchmarks, however,
probe only single-image relations and thus fail to assess the multi-image
spatial reasoning that real-world deployments demand. We introduce MMSI-Bench,
a VQA benchmark dedicated to multi-image spatial intelligence. Six 3D-vision
researchers spent more than 300 hours meticulously crafting 1,000 challenging,
unambiguous multiple-choice questions from over 120,000 images, each paired
with carefully designed distractors and a step-by-step reasoning process. We
conduct extensive experiments and thoroughly evaluate 34 open-source and
proprietary MLLMs, observing a wide gap: the strongest open-source model
attains roughly 30% accuracy and OpenAI's o3 reasoning model reaches 40%, while
humans score 97%. These results underscore the challenging nature of MMSI-Bench
and the substantial headroom for future research. Leveraging the annotated
reasoning processes, we also provide an automated error analysis pipeline that
diagnoses four dominant failure modes, including (1) grounding errors, (2)
overlap-matching and scene-reconstruction errors, (3) situation-transformation
reasoning errors, and (4) spatial-logic errors, offering valuable insights for
advancing multi-image spatial intelligence. Project page:
https://runsenxu.com/projects/MMSI_Bench .