MMSI-Video-Bench: 비디오 기반 공간 지능을 위한 종합 벤치마크
MMSI-Video-Bench: A Holistic Benchmark for Video-Based Spatial Intelligence
December 11, 2025
저자: Jingli Lin, Runsen Xu, Shaohao Zhu, Sihan Yang, Peizhou Cao, Yunlong Ran, Miao Hu, Chenming Zhu, Yiman Xie, Yilin Long, Wenbo Hu, Dahua Lin, Tai Wang, Jiangmiao Pang
cs.AI
초록
연속적인 시각 입력에 대한 공간 이해는 MLLM이 물리적 환경에서 범용 어시스턴트로 진화하기 위해 중요합니다. 그러나 이 목표를 향한 진전을 종합적으로 평가하는 벤치마크는 아직 부재합니다. 본 연구에서는 MLLM의 비디오 기반 공간 지능을 평가하기 위해 완전히 인간이 주석을 달은 벤치마크인 MMSI-Video-Bench를 소개합니다. 이 벤치마크는 25개 데이터셋과 자체 제작 비디오에서 추출한 1,278개 클립을 바탕으로 한 1,106개의 질문을 통해 지각(Perception), 계획(Planning), 예측(Prediction), 크로스-비디오 추론(Cross-Video Reasoning)이라는 4단계 프레임워크를 운영화합니다. 각 항목은 3DV 전문가들이 설명적 근거와 함께 신중하게 설계 및 검토하여 정확하고 모호함 없는 근거를 확보했습니다. 다양한 데이터 소스와 포괄적인 과제 범위를 활용하는 MMSI-Video-Bench는 또한 대상 능력 평가를 위한 세 가지 도메인 지향 하위 벤치마크(실내 장면 지각 벤치, 로봇 벤치, 그라운딩 벤치)를 지원합니다. 우리는 25개의 강력한 오픈소스 및 독점 MLLM을 평가하여 놀라운 인간-AI 간격을 확인했습니다: 많은 모델이 거의 추측 수준에 머물고, 가장 성능이 좋은 추론 모델도 인간보다 약 60%나 뒤처집니다. 우리는 더 나아가 공간적으로 미세 조정된 모델들도 우리 벤치마크에서 효과적으로 일반화하지 못함을 발견했습니다. 세분화된 오류 분석은 기하학적 추론, 운동 그라운딩, 장기 예측, 크로스-비디오 대응에서의 체계적 실패를 드러냈습니다. 우리는 또한 일반적인 프레임 샘플링 전략이 우리의 추론 집약적 벤치마크로 잘 전이되지 않으며, 3D 공간 단서나 사고 연쇄(chain-of-thought) 프롬프팅도 의미 있는 성능 향상을 가져오지 않음을 보여줍니다. 우리는 우리의 벤치마크가 비디오 기반 공간 지능 발전을 위한 견고한 테스트베드를 마련할 것으로 기대합니다.
English
Spatial understanding over continuous visual input is crucial for MLLMs to evolve into general-purpose assistants in physical environments. Yet there is still no comprehensive benchmark that holistically assesses the progress toward this goal. In this work, we introduce MMSI-Video-Bench, a fully human-annotated benchmark for video-based spatial intelligence in MLLMs. It operationalizes a four-level framework, Perception, Planning, Prediction, and Cross-Video Reasoning, through 1,106 questions grounded in 1,278 clips from 25 datasets and in-house videos. Each item is carefully designed and reviewed by 3DV experts with explanatory rationales to ensure precise, unambiguous grounding. Leveraging its diverse data sources and holistic task coverage, MMSI-Video-Bench also supports three domain-oriented sub-benchmarks (Indoor Scene Perception Bench, Robot Bench and Grounding Bench) for targeted capability assessment. We evaluate 25 strong open-source and proprietary MLLMs, revealing a striking human--AI gap: many models perform near chance, and the best reasoning model lags humans by nearly 60%. We further find that spatially fine-tuned models still fail to generalize effectively on our benchmark. Fine-grained error analysis exposes systematic failures in geometric reasoning, motion grounding, long-horizon prediction, and cross-video correspondence. We also show that typical frame-sampling strategies transfer poorly to our reasoning-intensive benchmark, and that neither 3D spatial cues nor chain-of-thought prompting yields meaningful gains. We expect our benchmark to establish a solid testbed for advancing video-based spatial intelligence.