MMSI-Video-Bench: Комплексный бенчмарк для оценки пространственного интеллекта на основе видео
MMSI-Video-Bench: A Holistic Benchmark for Video-Based Spatial Intelligence
December 11, 2025
Авторы: Jingli Lin, Runsen Xu, Shaohao Zhu, Sihan Yang, Peizhou Cao, Yunlong Ran, Miao Hu, Chenming Zhu, Yiman Xie, Yilin Long, Wenbo Hu, Dahua Lin, Tai Wang, Jiangmiao Pang
cs.AI
Аннотация
Пространственное понимание непрерывного визуального потока крайне важно для MLLM, чтобы они могли эволюционировать в универсальных помощников в физических средах. Однако до сих пор не существует всеобъемлющего бенчмарка, который бы комплексно оценивал прогресс в достижении этой цели. В данной работе мы представляем MMSI-Video-Bench — полностью размеченный человеком бенчмарк для оценки пространственного интеллекта MLLM на основе видео. Он реализует четырехуровневую структуру (Восприятие, Планирование, Прогнозирование и Межвидео-рассуждение) с помощью 1106 вопросов, основанных на 1278 клипах из 25 публичных наборов данных и внутренних видео. Каждый элемент тщательно спроектирован и проверен экспертами в области 3D-компьютерного зрения с пояснительными обоснованиями для обеспечения точной и однозначной привязки. Благодаря разнообразным источникам данных и комплексному охвату задач, MMSI-Video-Bench также поддерживает три предметно-ориентированных суб-бенчмарка (Бенчмарк восприятия внутренних сцен, Роботизированный бенчмарк и Бенчмарк локализации) для целевой оценки возможностей. Мы оценили 25 сильных открытых и проприетарных MLLM, выявив разительный разрыв между человеком и ИИ: многие модели показывают результаты, близкие к случайным, а лучшая модель для рассуждений отстает от человека почти на 60%. Мы также обнаружили, что модели, дообученные для пространственных задач, все еще не способны эффективно обобщать знания в нашем бенчмарке. Детальный анализ ошибок выявляет систематические сбои в геометрических рассуждениях, локализации движения, долгосрочном прогнозировании и установлении соответствий между видео. Мы также показываем, что типичные стратегии семплирования кадров плохо переносятся на наш бенчмарк, насыщенный задачами на рассуждение, и что ни 3D-пространственные подсказки, ни prompting по цепочке мыслей не дают значимого улучшения. Мы ожидаем, что наш бенчмарк станет надежной испытательной базой для развития видео-ориентированного пространственного интеллекта.
English
Spatial understanding over continuous visual input is crucial for MLLMs to evolve into general-purpose assistants in physical environments. Yet there is still no comprehensive benchmark that holistically assesses the progress toward this goal. In this work, we introduce MMSI-Video-Bench, a fully human-annotated benchmark for video-based spatial intelligence in MLLMs. It operationalizes a four-level framework, Perception, Planning, Prediction, and Cross-Video Reasoning, through 1,106 questions grounded in 1,278 clips from 25 datasets and in-house videos. Each item is carefully designed and reviewed by 3DV experts with explanatory rationales to ensure precise, unambiguous grounding. Leveraging its diverse data sources and holistic task coverage, MMSI-Video-Bench also supports three domain-oriented sub-benchmarks (Indoor Scene Perception Bench, Robot Bench and Grounding Bench) for targeted capability assessment. We evaluate 25 strong open-source and proprietary MLLMs, revealing a striking human--AI gap: many models perform near chance, and the best reasoning model lags humans by nearly 60%. We further find that spatially fine-tuned models still fail to generalize effectively on our benchmark. Fine-grained error analysis exposes systematic failures in geometric reasoning, motion grounding, long-horizon prediction, and cross-video correspondence. We also show that typical frame-sampling strategies transfer poorly to our reasoning-intensive benchmark, and that neither 3D spatial cues nor chain-of-thought prompting yields meaningful gains. We expect our benchmark to establish a solid testbed for advancing video-based spatial intelligence.