ChatPaper.aiChatPaper

MMSI-Video-Bench: Ein holistischer Benchmark für videobasierte räumliche Intelligenz

MMSI-Video-Bench: A Holistic Benchmark for Video-Based Spatial Intelligence

December 11, 2025
papers.authors: Jingli Lin, Runsen Xu, Shaohao Zhu, Sihan Yang, Peizhou Cao, Yunlong Ran, Miao Hu, Chenming Zhu, Yiman Xie, Yilin Long, Wenbo Hu, Dahua Lin, Tai Wang, Jiangmiao Pang
cs.AI

papers.abstract

Räumliches Verständnis kontinuierlicher visueller Eingaben ist entscheidend dafür, dass MLLMs sich zu universellen Assistenten in physischen Umgebungen entwickeln. Dennoch existiert bisher kein umfassender Benchmark, der die Fortschritte hin zu diesem Ziel ganzheitlich bewertet. In dieser Arbeit stellen wir MMSI-Video-Bench vor, einen vollständig humanannotierten Benchmark für videobasierte räumliche Intelligenz in MLLMs. Er operationalisiert ein Vier-Ebenen-Framework – Wahrnehmung, Planung, Vorhersage und videoübergreifendes Schließen – mittels 1.106 Fragen, die auf 1.278 Videosequenzen aus 25 Datensätzen und internen Videos basieren. Jeder Eintrag wurde sorgfältig von 3DV-Experten entworfen und geprüft, mit erläuternden Begründungen, um eine präzise, eindeutige Verankerung zu gewährleisten. Dank seiner diversen Datenquellen und ganzheitlichen Aufgabenabdeckung unterstützt MMSI-Video-Bench zudem drei domänenspezifische Sub-Benchmarks (Indoor Scene Perception Bench, Robot Bench und Grounding Bench) für gezielte Fähigkeitsbewertungen. Wir evaluieren 25 leistungsstarke Open-Source- und proprietäre MLLMs und zeigen eine eklatante Mensch-KI-Lücke auf: Viele Modelle liegen nahe der Ratewahrscheinlichkeit, und das beste Reasoning-Modell liegt fast 60 % hinter dem Menschen zurück. Wir stellen weiter fest, dass räumlich feinabgestimmte Modelle auf unserem Benchmark immer noch keine effektive Generalisierung erreichen. Eine feingranulare Fehleranalyse deckt systematische Schwächen beim geometrischen Schließen, der Bewegungsverankerung, langfristigen Vorhersagen und der videoübergreifenden Korrespondenz auf. Wir zeigen auch, dass gängige Frame-Sampling-Strategien sich schlecht auf unseren reasoning-intensiven Benchmark übertragen lassen und dass weder 3D-räumliche Hinweise noch Chain-of-Thought-Prompting signifikante Verbesserungen bringen. Wir erwarten, dass unser Benchmark eine solide Testgrundlage für die Weiterentwicklung videobasierter räumlicher Intelligenz schaffen wird.
English
Spatial understanding over continuous visual input is crucial for MLLMs to evolve into general-purpose assistants in physical environments. Yet there is still no comprehensive benchmark that holistically assesses the progress toward this goal. In this work, we introduce MMSI-Video-Bench, a fully human-annotated benchmark for video-based spatial intelligence in MLLMs. It operationalizes a four-level framework, Perception, Planning, Prediction, and Cross-Video Reasoning, through 1,106 questions grounded in 1,278 clips from 25 datasets and in-house videos. Each item is carefully designed and reviewed by 3DV experts with explanatory rationales to ensure precise, unambiguous grounding. Leveraging its diverse data sources and holistic task coverage, MMSI-Video-Bench also supports three domain-oriented sub-benchmarks (Indoor Scene Perception Bench, Robot Bench and Grounding Bench) for targeted capability assessment. We evaluate 25 strong open-source and proprietary MLLMs, revealing a striking human--AI gap: many models perform near chance, and the best reasoning model lags humans by nearly 60%. We further find that spatially fine-tuned models still fail to generalize effectively on our benchmark. Fine-grained error analysis exposes systematic failures in geometric reasoning, motion grounding, long-horizon prediction, and cross-video correspondence. We also show that typical frame-sampling strategies transfer poorly to our reasoning-intensive benchmark, and that neither 3D spatial cues nor chain-of-thought prompting yields meaningful gains. We expect our benchmark to establish a solid testbed for advancing video-based spatial intelligence.
PDF192December 19, 2025