MMSI-Video-Bench: Um Benchmark Holístico para a Inteligência Espacial Baseada em Vídeo

Resumo

A compreensão espacial sobre entrada visual contínua é crucial para que os MLLMs evoluam para assistentes de propósito geral em ambientes físicos. No entanto, ainda não existe um benchmark abrangente que avalie holisticamente o progresso em direção a esse objetivo. Neste trabalho, introduzimos o MMSI-Video-Bench, um benchmark totalmente anotado por humanos para avaliação da inteligência espacial baseada em vídeo em MLLMs. Ele opera por meio de uma estrutura de quatro níveis - Percepção, Planeamento, Previsão e Raciocínio Transvídeo - através de 1.106 questões fundamentadas em 1.278 clipes de 25 conjuntos de dados e vídeos internos. Cada item é cuidadosamente concebido e revisto por especialistas em visão 3D com racionais explicativos para garantir um enquadramento preciso e inequívoco. Aproveitando as suas diversas fontes de dados e cobertura holística de tarefas, o MMSI-Video-Bench também suporta três sub-benchmarks orientados por domínio (Bench de Percepção de Cenas Interiores, Bench Robótico e Bench de Aterragem) para avaliação direcionada de capacidades. Avaliámos 25 MLLMs de código aberto e proprietários robustos, revelando uma lacuna notável entre humanos e IA: muitos modelos apresentam desempenho próximo ao acaso, e o melhor modelo de raciocínio fica cerca de 60% atrás dos humanos. Descobrimos ainda que modelos com ajuste fino espacial ainda falham em generalizar eficazmente no nosso benchmark. A análise granular de erros expõe falhas sistemáticas no raciocínio geométrico, na aterragem de movimento, na previsão de longo horizonte e na correspondência transvídeo. Também mostramos que as estratégias típicas de amostragem de frames transferem-se mal para o nosso benchmark intensivo em raciocínio, e que nem os indícios espaciais 3D nem a prompting de cadeia de pensamento produzem ganhos significativos. Esperamos que o nosso benchmark estabeleça uma base sólida de teste para o avanço da inteligência espacial baseada em vídeo.

English

Spatial understanding over continuous visual input is crucial for MLLMs to evolve into general-purpose assistants in physical environments. Yet there is still no comprehensive benchmark that holistically assesses the progress toward this goal. In this work, we introduce MMSI-Video-Bench, a fully human-annotated benchmark for video-based spatial intelligence in MLLMs. It operationalizes a four-level framework, Perception, Planning, Prediction, and Cross-Video Reasoning, through 1,106 questions grounded in 1,278 clips from 25 datasets and in-house videos. Each item is carefully designed and reviewed by 3DV experts with explanatory rationales to ensure precise, unambiguous grounding. Leveraging its diverse data sources and holistic task coverage, MMSI-Video-Bench also supports three domain-oriented sub-benchmarks (Indoor Scene Perception Bench, Robot Bench and Grounding Bench) for targeted capability assessment. We evaluate 25 strong open-source and proprietary MLLMs, revealing a striking human--AI gap: many models perform near chance, and the best reasoning model lags humans by nearly 60%. We further find that spatially fine-tuned models still fail to generalize effectively on our benchmark. Fine-grained error analysis exposes systematic failures in geometric reasoning, motion grounding, long-horizon prediction, and cross-video correspondence. We also show that typical frame-sampling strategies transfer poorly to our reasoning-intensive benchmark, and that neither 3D spatial cues nor chain-of-thought prompting yields meaningful gains. We expect our benchmark to establish a solid testbed for advancing video-based spatial intelligence.

MMSI-Video-Bench: Um Benchmark Holístico para a Inteligência Espacial Baseada em Vídeo

MMSI-Video-Bench: A Holistic Benchmark for Video-Based Spatial Intelligence

Resumo

Support