ChatPaper.aiChatPaper

MMSI-Video-Bench: 映像ベースの空間知能のための総合的ベンチマーク

MMSI-Video-Bench: A Holistic Benchmark for Video-Based Spatial Intelligence

December 11, 2025
著者: Jingli Lin, Runsen Xu, Shaohao Zhu, Sihan Yang, Peizhou Cao, Yunlong Ran, Miao Hu, Chenming Zhu, Yiman Xie, Yilin Long, Wenbo Hu, Dahua Lin, Tai Wang, Jiangmiao Pang
cs.AI

要旨

連続的な視覚入力に基づく空間理解は、MLLMが物理環境における汎用アシスタントへと進化する上で極めて重要である。しかし、この目標に向けた進捗を総合的に評価するベンチマークは未だ存在しない。本研究では、MLLMのビデオベース空間知能を評価するため、完全に人手で注釈付けされたベンチマーク「MMSI-Video-Bench」を提案する。本ベンチマークは、知覚、計画、予測、クロスビデオ推論という4段階のフレームワークを、25のデータセットと内部ビデオから収集した1,278のクリップに基づく1,106の質問を通じて具体化する。各設問は、3DV専門家によって注意深く設計・レビューされ、説明根拠とともに、正確で曖昧さのない接地を保証している。多様なデータソースと総合的なタスクカバレッジを活かし、MMSI-Video-Benchは、特定能力評価のための3つのドメイン指向サブベンチマーク(室内シーン知覚ベンチ、ロボットベンチ、接地ベンチ)もサポートする。我々は25の強力なオープンソースおよびプロプライエタリなMLLMを評価し、顕著な人間-AI間のギャップを明らかにした:多くのモデルがほぼ偶然の水準で性能を示し、最良の推論モデルでさえ人間より約60%遅れている。さらに、空間的にファインチューニングされたモデルでさえ、本ベンチマークでは効果的に汎化できないことがわかった。詳細な誤り分析は、幾何学的推論、運動の接地、長期予測、クロスビデオ対応における系統的な失敗を浮き彫りにした。また、典型的なフレームサンプリング戦略が本推論集約型ベンチマークではうまく移行しないこと、3D空間手がかりや連鎖的思考プロンプトも有意な改善をもたらさないことを示す。本ベンチマークが、ビデオベース空間知能の進歩に向けた強固なテストベッドを確立することを期待する。
English
Spatial understanding over continuous visual input is crucial for MLLMs to evolve into general-purpose assistants in physical environments. Yet there is still no comprehensive benchmark that holistically assesses the progress toward this goal. In this work, we introduce MMSI-Video-Bench, a fully human-annotated benchmark for video-based spatial intelligence in MLLMs. It operationalizes a four-level framework, Perception, Planning, Prediction, and Cross-Video Reasoning, through 1,106 questions grounded in 1,278 clips from 25 datasets and in-house videos. Each item is carefully designed and reviewed by 3DV experts with explanatory rationales to ensure precise, unambiguous grounding. Leveraging its diverse data sources and holistic task coverage, MMSI-Video-Bench also supports three domain-oriented sub-benchmarks (Indoor Scene Perception Bench, Robot Bench and Grounding Bench) for targeted capability assessment. We evaluate 25 strong open-source and proprietary MLLMs, revealing a striking human--AI gap: many models perform near chance, and the best reasoning model lags humans by nearly 60%. We further find that spatially fine-tuned models still fail to generalize effectively on our benchmark. Fine-grained error analysis exposes systematic failures in geometric reasoning, motion grounding, long-horizon prediction, and cross-video correspondence. We also show that typical frame-sampling strategies transfer poorly to our reasoning-intensive benchmark, and that neither 3D spatial cues nor chain-of-thought prompting yields meaningful gains. We expect our benchmark to establish a solid testbed for advancing video-based spatial intelligence.
PDF192December 19, 2025