MMSI-Video-Bench: Un Punto de Referencia Integral para la Inteligencia Espacial Basada en Video
MMSI-Video-Bench: A Holistic Benchmark for Video-Based Spatial Intelligence
December 11, 2025
Autores: Jingli Lin, Runsen Xu, Shaohao Zhu, Sihan Yang, Peizhou Cao, Yunlong Ran, Miao Hu, Chenming Zhu, Yiman Xie, Yilin Long, Wenbo Hu, Dahua Lin, Tai Wang, Jiangmiao Pang
cs.AI
Resumen
La comprensión espacial sobre entradas visuales continuas es crucial para que los MLLM evolucionen hacia asistentes de propósito general en entornos físicos. Sin embargo, aún no existe un punto de referencia integral que evalúe holísticamente el progreso hacia este objetivo. En este trabajo, presentamos MMSI-Video-Bench, un benchmark completamente anotado por humanos para evaluar la inteligencia espacial basada en video en MLLM. Este operacionaliza un marco de cuatro niveles (Percepción, Planificación, Predicción y Razonamiento Transversal de Videos) mediante 1.106 preguntas basadas en 1.278 clips procedentes de 25 conjuntos de datos y videos internos. Cada ítem ha sido cuidadosamente diseñado y revisado por expertos en visión 3D, e incluye razonamientos explicativos para garantizar una base precisa y no ambigua. Aprovechando sus diversas fuentes de datos y su cobertura holística de tareas, MMSI-Video-Bench también admite tres sub-benchmarks orientados a dominios específicos (Benchmark de Percepción de Escenas Interiores, Benchmark de Robótica y Benchmark de Grounding) para una evaluación dirigida de capacidades. Evaluamos 25 MLLM de código abierto y propietarios de alto rendimiento, revelando una brecha notable entre humanos e IA: muchos modelos rinden cerca del nivel de azar, y el mejor modelo de razonamiento se sitúa casi un 60% por detrás de los humanos. Además, encontramos que los modelos ajustados específicamente para tareas espaciales aún no generalizan efectivamente en nuestro benchmark. Un análisis granular de errores expone fallos sistemáticos en el razonamiento geométrico, el grounding de movimiento, la predicción a largo plazo y la correspondencia entre videos. También demostramos que las estrategias típicas de muestreo de fotogramas se transfieren pobremente a nuestro benchmark intensivo en razonamiento, y que ni las pistas espaciales 3D ni el prompting de cadena de pensamiento producen mejoras significativas. Esperamos que nuestro benchmark establezca un banco de pruebas sólido para avanzar en la inteligencia espacial basada en video.
English
Spatial understanding over continuous visual input is crucial for MLLMs to evolve into general-purpose assistants in physical environments. Yet there is still no comprehensive benchmark that holistically assesses the progress toward this goal. In this work, we introduce MMSI-Video-Bench, a fully human-annotated benchmark for video-based spatial intelligence in MLLMs. It operationalizes a four-level framework, Perception, Planning, Prediction, and Cross-Video Reasoning, through 1,106 questions grounded in 1,278 clips from 25 datasets and in-house videos. Each item is carefully designed and reviewed by 3DV experts with explanatory rationales to ensure precise, unambiguous grounding. Leveraging its diverse data sources and holistic task coverage, MMSI-Video-Bench also supports three domain-oriented sub-benchmarks (Indoor Scene Perception Bench, Robot Bench and Grounding Bench) for targeted capability assessment. We evaluate 25 strong open-source and proprietary MLLMs, revealing a striking human--AI gap: many models perform near chance, and the best reasoning model lags humans by nearly 60%. We further find that spatially fine-tuned models still fail to generalize effectively on our benchmark. Fine-grained error analysis exposes systematic failures in geometric reasoning, motion grounding, long-horizon prediction, and cross-video correspondence. We also show that typical frame-sampling strategies transfer poorly to our reasoning-intensive benchmark, and that neither 3D spatial cues nor chain-of-thought prompting yields meaningful gains. We expect our benchmark to establish a solid testbed for advancing video-based spatial intelligence.