SIMS-V: Simulação de Ajuste Fino por Instrução para Compreensão de Vídeo Espacial
SIMS-V: Simulated Instruction-Tuning for Spatial Video Understanding
November 6, 2025
Autores: Ellis Brown, Arijit Ray, Ranjay Krishna, Ross Girshick, Rob Fergus, Saining Xie
cs.AI
Resumo
Apesar de impressionante compreensão de vídeo em alto nível, os modelos de linguagem multimodal apresentam dificuldades no raciocínio espacial através do tempo e do espaço. Embora as abordagens atuais de treinamento espacial dependam de dados de vídeo do mundo real, a obtenção de filmagens diversificadas com anotações espaciais precisas continua sendo um gargalo. Para aliviar este gargalo, apresentamos o SIMS-V – uma estrutura sistemática de geração de dados que aproveita as informações privilegiadas de simuladores 3D para criar dados de treinamento em vídeo espacialmente ricos para modelos de linguagem multimodal. Usando esta estrutura, investigamos quais propriedades dos dados simulados impulsionam a transferência eficaz para o mundo real através de ablações sistemáticas de tipos, misturas e escalas de perguntas. Identificamos um conjunto mínimo de três categorias de perguntas (medição métrica, raciocínio dependente de perspectiva e rastreamento temporal) que se mostram mais eficazes para desenvolver inteligência espacial transferível, superando a cobertura abrangente apesar de usar menos tipos de perguntas. Esses insights permitem um treinamento altamente eficiente: nosso modelo de linguagem de vídeo de 7 bilhões de parâmetros, ajustado com apenas 25 mil exemplos simulados, supera a linha de base maior de 72 bilhões e alcança desempenho competitivo com modelos proprietários em rigorosos benchmarks de raciocínio espacial do mundo real. Nossa abordagem demonstra generalização robusta, mantendo o desempenho na compreensão geral de vídeo enquanto mostra melhorias substanciais em tarefas espaciais incorporadas e do mundo real.
English
Despite impressive high-level video comprehension, multimodal language models
struggle with spatial reasoning across time and space. While current spatial
training approaches rely on real-world video data, obtaining diverse footage
with precise spatial annotations remains a bottleneck. To alleviate this
bottleneck, we present SIMS-V -- a systematic data-generation framework that
leverages the privileged information of 3D simulators to create spatially-rich
video training data for multimodal language models. Using this framework, we
investigate which properties of simulated data drive effective real-world
transfer through systematic ablations of question types, mixes, and scales. We
identify a minimal set of three question categories (metric measurement,
perspective-dependent reasoning, and temporal tracking) that prove most
effective for developing transferable spatial intelligence, outperforming
comprehensive coverage despite using fewer question types. These insights
enable highly efficient training: our 7B-parameter video LLM fine-tuned on just
25K simulated examples outperforms the larger 72B baseline and achieves
competitive performance with proprietary models on rigorous real-world spatial
reasoning benchmarks. Our approach demonstrates robust generalization,
maintaining performance on general video understanding while showing
substantial improvements on embodied and real-world spatial tasks.