ChatPaper.aiChatPaper

MMSI-Video-Bench : Un benchmark holistique pour l'intelligence spatiale basée sur la vidéo

MMSI-Video-Bench: A Holistic Benchmark for Video-Based Spatial Intelligence

December 11, 2025
papers.authors: Jingli Lin, Runsen Xu, Shaohao Zhu, Sihan Yang, Peizhou Cao, Yunlong Ran, Miao Hu, Chenming Zhu, Yiman Xie, Yilin Long, Wenbo Hu, Dahua Lin, Tai Wang, Jiangmiao Pang
cs.AI

papers.abstract

La compréhension spatiale à partir d'entrées visuelles continues est cruciale pour que les MLLM évoluent vers des assistants polyvalents dans les environnements physiques. Pourtant, il n'existe toujours pas de benchmark complet évaluant de manière holistique les progrès vers cet objectif. Dans ce travail, nous présentons MMSI-Video-Bench, un benchmark entièrement annoté manuellement pour l'intelligence spatiale basée sur la vidéo dans les MLLM. Il opérationnalise un cadre à quatre niveaux – Perception, Planification, Prédiction et Raisonnement Inter-Vidéos – au travers de 1 106 questions ancrées dans 1 278 clips issus de 25 jeux de données et de vidéos internes. Chaque élément est soigneusement conçu et relu par des experts en vision 3D, avec des justifications explicatives, pour garantir un ancrage précis et non ambigu. Tirant parti de la diversité de ses sources de données et de sa couverture holistique des tâches, MMSI-Video-Bench prend également en charge trois sous-benchmarks orientés domaine (Benchmark de Perception de Scènes Intérieures, Benchmark Robotique et Benchmark d'Ancrage) pour une évaluation ciblée des capacités. Nous évaluons 25 MLLM open-source et propriétaires performants, révélant un écart frappant entre l'homme et l'IA : de nombreux modèles obtiennent des résultats proches du hasard, et le meilleur modèle de raisonnement accuse un retard de près de 60 % par rapport aux humains. Nous constatons en outre que les modèles affinés spatialement échouent encore à généraliser efficacement sur notre benchmark. Une analyse fine des erreurs révèle des échecs systématiques dans le raisonnement géométrique, l'ancrage du mouvement, la prédiction à long terme et la correspondance inter-vidéos. Nous montrons également que les stratégies d'échantillonnage d'images typiques se transfèrent mal à notre benchmark intensif en raisonnement, et que ni les indices spatiaux 3D ni l'incitation par raisonnement en chaîne ne procurent d'améliorations significatives. Nous espérons que notre benchmark établira un banc d'essai solide pour faire progresser l'intelligence spatiale basée sur la vidéo.
English
Spatial understanding over continuous visual input is crucial for MLLMs to evolve into general-purpose assistants in physical environments. Yet there is still no comprehensive benchmark that holistically assesses the progress toward this goal. In this work, we introduce MMSI-Video-Bench, a fully human-annotated benchmark for video-based spatial intelligence in MLLMs. It operationalizes a four-level framework, Perception, Planning, Prediction, and Cross-Video Reasoning, through 1,106 questions grounded in 1,278 clips from 25 datasets and in-house videos. Each item is carefully designed and reviewed by 3DV experts with explanatory rationales to ensure precise, unambiguous grounding. Leveraging its diverse data sources and holistic task coverage, MMSI-Video-Bench also supports three domain-oriented sub-benchmarks (Indoor Scene Perception Bench, Robot Bench and Grounding Bench) for targeted capability assessment. We evaluate 25 strong open-source and proprietary MLLMs, revealing a striking human--AI gap: many models perform near chance, and the best reasoning model lags humans by nearly 60%. We further find that spatially fine-tuned models still fail to generalize effectively on our benchmark. Fine-grained error analysis exposes systematic failures in geometric reasoning, motion grounding, long-horizon prediction, and cross-video correspondence. We also show that typical frame-sampling strategies transfer poorly to our reasoning-intensive benchmark, and that neither 3D spatial cues nor chain-of-thought prompting yields meaningful gains. We expect our benchmark to establish a solid testbed for advancing video-based spatial intelligence.
PDF192December 19, 2025