SIMS-V: Имитационное обучение с инструкциями для понимания пространственного видео

Аннотация

Несмотря на впечатляющее понимание видео на высоком уровне, мультимодальные языковые модели испытывают трудности с пространственными рассуждениями во времени и пространстве. В то время как современные подходы к обучению пространственному мышлению опираются на видеоданные из реального мира, получение разнообразных видеоматериалов с точными пространственными аннотациями остается узким местом. Для решения этой проблемы мы представляем SIMS-V — систематическую框架 генерации данных, которая использует привилегированную информацию 3D-симуляторов для создания обогащенных пространственными данными видео для обучения мультимодальных языковых моделей. С помощью этой框架 мы исследуем, какие свойства синтезированных данных обеспечивают эффективный перенос в реальный мир, путем систематического абляции типов вопросов, их комбинаций и масштабов. Мы идентифицируем минимальный набор из трех категорий вопросов (метрические измерения, рассуждения, зависящие от перспективы, и временное отслеживание), которые оказываются наиболее эффективными для развития переносимого пространственного интеллекта, превосходя подходы с полным охватом, несмотря на использование меньшего количества типов вопросов. Эти инсайты позволяют проводить высокоэффективное обучение: наша 7-миллиардная видео-ЯМ, дообученная всего на 25 тыс. синтезированных примерах, превосходит более крупную 72-миллиардную базовую модель и демонстрирует конкурентоспособные результаты с проприетарными моделями на строгих бенчмарках пространственных рассуждений из реального мира. Наш подход демонстрирует robustную генерализацию, сохраняя производительность на задачах общего понимания видео и показывая существенное улучшение на воплощенных и реальных пространственных задачах.

English

Despite impressive high-level video comprehension, multimodal language models struggle with spatial reasoning across time and space. While current spatial training approaches rely on real-world video data, obtaining diverse footage with precise spatial annotations remains a bottleneck. To alleviate this bottleneck, we present SIMS-V -- a systematic data-generation framework that leverages the privileged information of 3D simulators to create spatially-rich video training data for multimodal language models. Using this framework, we investigate which properties of simulated data drive effective real-world transfer through systematic ablations of question types, mixes, and scales. We identify a minimal set of three question categories (metric measurement, perspective-dependent reasoning, and temporal tracking) that prove most effective for developing transferable spatial intelligence, outperforming comprehensive coverage despite using fewer question types. These insights enable highly efficient training: our 7B-parameter video LLM fine-tuned on just 25K simulated examples outperforms the larger 72B baseline and achieves competitive performance with proprietary models on rigorous real-world spatial reasoning benchmarks. Our approach demonstrates robust generalization, maintaining performance on general video understanding while showing substantial improvements on embodied and real-world spatial tasks.

SIMS-V: Имитационное обучение с инструкциями для понимания пространственного видео

SIMS-V: Simulated Instruction-Tuning for Spatial Video Understanding

Аннотация

Support