SIMS-V: Имитационное обучение с инструкциями для понимания пространственного видео
SIMS-V: Simulated Instruction-Tuning for Spatial Video Understanding
November 6, 2025
Авторы: Ellis Brown, Arijit Ray, Ranjay Krishna, Ross Girshick, Rob Fergus, Saining Xie
cs.AI
Аннотация
Несмотря на впечатляющее понимание видео на высоком уровне, мультимодальные языковые модели испытывают трудности с пространственными рассуждениями во времени и пространстве. В то время как современные подходы к обучению пространственному мышлению опираются на видеоданные из реального мира, получение разнообразных видеоматериалов с точными пространственными аннотациями остается узким местом. Для решения этой проблемы мы представляем SIMS-V — систематическую框架 генерации данных, которая использует привилегированную информацию 3D-симуляторов для создания обогащенных пространственными данными видео для обучения мультимодальных языковых моделей. С помощью этой框架 мы исследуем, какие свойства синтезированных данных обеспечивают эффективный перенос в реальный мир, путем систематического абляции типов вопросов, их комбинаций и масштабов. Мы идентифицируем минимальный набор из трех категорий вопросов (метрические измерения, рассуждения, зависящие от перспективы, и временное отслеживание), которые оказываются наиболее эффективными для развития переносимого пространственного интеллекта, превосходя подходы с полным охватом, несмотря на использование меньшего количества типов вопросов. Эти инсайты позволяют проводить высокоэффективное обучение: наша 7-миллиардная видео-ЯМ, дообученная всего на 25 тыс. синтезированных примерах, превосходит более крупную 72-миллиардную базовую модель и демонстрирует конкурентоспособные результаты с проприетарными моделями на строгих бенчмарках пространственных рассуждений из реального мира. Наш подход демонстрирует robustную генерализацию, сохраняя производительность на задачах общего понимания видео и показывая существенное улучшение на воплощенных и реальных пространственных задачах.
English
Despite impressive high-level video comprehension, multimodal language models
struggle with spatial reasoning across time and space. While current spatial
training approaches rely on real-world video data, obtaining diverse footage
with precise spatial annotations remains a bottleneck. To alleviate this
bottleneck, we present SIMS-V -- a systematic data-generation framework that
leverages the privileged information of 3D simulators to create spatially-rich
video training data for multimodal language models. Using this framework, we
investigate which properties of simulated data drive effective real-world
transfer through systematic ablations of question types, mixes, and scales. We
identify a minimal set of three question categories (metric measurement,
perspective-dependent reasoning, and temporal tracking) that prove most
effective for developing transferable spatial intelligence, outperforming
comprehensive coverage despite using fewer question types. These insights
enable highly efficient training: our 7B-parameter video LLM fine-tuned on just
25K simulated examples outperforms the larger 72B baseline and achieves
competitive performance with proprietary models on rigorous real-world spatial
reasoning benchmarks. Our approach demonstrates robust generalization,
maintaining performance on general video understanding while showing
substantial improvements on embodied and real-world spatial tasks.