MMSI-Video-Bench: Un Benchmark Olistico per l'Intelligenza Spaziale Basata su Video
MMSI-Video-Bench: A Holistic Benchmark for Video-Based Spatial Intelligence
December 11, 2025
Autori: Jingli Lin, Runsen Xu, Shaohao Zhu, Sihan Yang, Peizhou Cao, Yunlong Ran, Miao Hu, Chenming Zhu, Yiman Xie, Yilin Long, Wenbo Hu, Dahua Lin, Tai Wang, Jiangmiao Pang
cs.AI
Abstract
La comprensione spaziale su input visivo continuo è cruciale affinché i MLLM evolvano in assistenti generici per ambienti fisici. Tuttavia, manca ancora un benchmark completo che valuti in modo olistico i progressi verso questo obiettivo. In questo lavoro presentiamo MMSI-Video-Bench, un benchmark completamente annotato da esseri umani per l'intelligenza spaziale basata su video nei MLLM. Esso opera attraverso un framework a quattro livelli - Percezione, Pianificazione, Previsione e Ragionamento Cross-Video - mediante 1.106 quesiti basati su 1.278 clip provenienti da 25 dataset e video interni. Ogni elemento è stato progettato e revisionato con cura da esperti di visione 3D, corredato da ragionamenti esplicativi per garantire un ancoraggio preciso e non ambiguo. Sfruttando le sue fonti dati diversificate e la copertura olistica dei compiti, MMSI-Video-Bench supporta anche tre sotto-benchmark orientati al dominio (Bench di Percezione di Scene Indoor, Bench Robotico e Bench di Grounding) per valutazioni mirate delle capacità. Abbiamo valutato 25 MLLM open-source e proprietari di alto livello, rivelando un divario sorprendente uomo-IA: molti modelli performano quasi a livello casuale, e il miglior modello di ragionamento è in ritardo di quasi il 60% rispetto agli umani. Inoltre, abbiamo riscontrato che i modelli ottimizzati spazialmente non generalizzano efficacemente sul nostro benchmark. L'analisi granulare degli errori rivela fallimenti sistematici nel ragionamento geometrico, nel grounding del movimento, nella previsione a lungo termine e nella corrispondenza cross-video. Dimostriamo inoltre che le tipiche strategie di campionamento di frame si trasferiscono scarsamente sul nostro benchmark intensivo di ragionamento, e che né gli indizi spaziali 3D né il prompting a catena di pensiero producono miglioramenti significativi. Ci aspettiamo che il nostro benchmark costituisca un solido banco di prova per far avanzare l'intelligenza spaziale basata su video.
English
Spatial understanding over continuous visual input is crucial for MLLMs to evolve into general-purpose assistants in physical environments. Yet there is still no comprehensive benchmark that holistically assesses the progress toward this goal. In this work, we introduce MMSI-Video-Bench, a fully human-annotated benchmark for video-based spatial intelligence in MLLMs. It operationalizes a four-level framework, Perception, Planning, Prediction, and Cross-Video Reasoning, through 1,106 questions grounded in 1,278 clips from 25 datasets and in-house videos. Each item is carefully designed and reviewed by 3DV experts with explanatory rationales to ensure precise, unambiguous grounding. Leveraging its diverse data sources and holistic task coverage, MMSI-Video-Bench also supports three domain-oriented sub-benchmarks (Indoor Scene Perception Bench, Robot Bench and Grounding Bench) for targeted capability assessment. We evaluate 25 strong open-source and proprietary MLLMs, revealing a striking human--AI gap: many models perform near chance, and the best reasoning model lags humans by nearly 60%. We further find that spatially fine-tuned models still fail to generalize effectively on our benchmark. Fine-grained error analysis exposes systematic failures in geometric reasoning, motion grounding, long-horizon prediction, and cross-video correspondence. We also show that typical frame-sampling strategies transfer poorly to our reasoning-intensive benchmark, and that neither 3D spatial cues nor chain-of-thought prompting yields meaningful gains. We expect our benchmark to establish a solid testbed for advancing video-based spatial intelligence.