ChatPaper.aiChatPaper

MMSI-Video-Bench: Een Holistische Benchmark voor Video-gebaseerd Ruimtelijk Inzicht

MMSI-Video-Bench: A Holistic Benchmark for Video-Based Spatial Intelligence

December 11, 2025
Auteurs: Jingli Lin, Runsen Xu, Shaohao Zhu, Sihan Yang, Peizhou Cao, Yunlong Ran, Miao Hu, Chenming Zhu, Yiman Xie, Yilin Long, Wenbo Hu, Dahua Lin, Tai Wang, Jiangmiao Pang
cs.AI

Samenvatting

Ruimtelijk begrip van continue visuele input is cruciaal voor MLLM's om zich te ontwikkelen tot algemene assistenten in fysieke omgevingen. Toch ontbreekt het nog steeds aan een uitgebreide benchmark die de voortgang naar dit doel holistisch beoordeelt. In dit werk introduceren we MMSI-Video-Bench, een volledig door mensen geannoteerde benchmark voor op video gebaseerde ruimtelijke intelligentie in MLLM's. Het operationaliseert een raamwerk met vier niveaus – Waarneming, Planning, Voorspelling en Redeneren over Video's Heen – door middel van 1.106 vragen gebaseerd op 1.278 fragmenten uit 25 datasets en interne video's. Elk item is zorgvuldig ontworpen en beoordeeld door 3DV-experts met verklarende redeneringen om een precieze, eenduidige gronding te garanderen. Door de diverse databronnen en holistische taakdekking ondersteunt MMSI-Video-Bench ook drie domeingerichte subbenchmarks (Indoor Scene Perception Bench, Robot Bench en Grounding Bench) voor gerichte capaciteitsbeoordeling. We evalueren 25 sterke open-source en propriëtaire MLLM's, wat een opvallende kloof tussen mens en AI aan het licht brengt: veel modellen presteren bijna op kansniveau, en het beste redeneermodel loopt bijna 60% achter op mensen. Verder constateren we dat ruimtelijk gefinetunede modellen nog steeds falen om effectief te generaliseren op onze benchmark. Fijnmazige foutenanalyse legt systematische fouten bloot in geometrisch redeneren, het gronden van beweging, voorspelling over lange termijn en correspondentie tussen video's. We tonen ook aan dat typische frame-bemonsteringsstrategieën zich slecht vertalen naar onze reasoning-intensieve benchmark, en dat noch 3D-ruimtelijke aanwijzingen noch chain-of-thought prompting tot betekenisvolle verbeteringen leiden. We verwachten dat onze benchmark een solide testomgeving zal vormen voor de vooruitgang van op video gebaseerde ruimtelijke intelligentie.
English
Spatial understanding over continuous visual input is crucial for MLLMs to evolve into general-purpose assistants in physical environments. Yet there is still no comprehensive benchmark that holistically assesses the progress toward this goal. In this work, we introduce MMSI-Video-Bench, a fully human-annotated benchmark for video-based spatial intelligence in MLLMs. It operationalizes a four-level framework, Perception, Planning, Prediction, and Cross-Video Reasoning, through 1,106 questions grounded in 1,278 clips from 25 datasets and in-house videos. Each item is carefully designed and reviewed by 3DV experts with explanatory rationales to ensure precise, unambiguous grounding. Leveraging its diverse data sources and holistic task coverage, MMSI-Video-Bench also supports three domain-oriented sub-benchmarks (Indoor Scene Perception Bench, Robot Bench and Grounding Bench) for targeted capability assessment. We evaluate 25 strong open-source and proprietary MLLMs, revealing a striking human--AI gap: many models perform near chance, and the best reasoning model lags humans by nearly 60%. We further find that spatially fine-tuned models still fail to generalize effectively on our benchmark. Fine-grained error analysis exposes systematic failures in geometric reasoning, motion grounding, long-horizon prediction, and cross-video correspondence. We also show that typical frame-sampling strategies transfer poorly to our reasoning-intensive benchmark, and that neither 3D spatial cues nor chain-of-thought prompting yields meaningful gains. We expect our benchmark to establish a solid testbed for advancing video-based spatial intelligence.
PDF192December 19, 2025