SIMS-V: Addestramento Simulato su Istruzioni per la Comprensione di Video Spaziali
SIMS-V: Simulated Instruction-Tuning for Spatial Video Understanding
November 6, 2025
Autori: Ellis Brown, Arijit Ray, Ranjay Krishna, Ross Girshick, Rob Fergus, Saining Xie
cs.AI
Abstract
Nonostante l'impressionante capacità di comprensione video di alto livello, i modelli linguistici multimodali mostrano difficoltà nel ragionamento spaziale attraverso il tempo e lo spazio. Sebbene gli attuali approcci di addestramento spaziale si basino su dati video del mondo reale, ottenere filmati diversificati con annotazioni spaziali precise rimane un collo di bottiglia. Per alleviare questo problema, presentiamo SIMS-V – un framework sistematico di generazione dati che sfrutta le informazioni privilegiate dei simulatori 3D per creare dati di addestramento video spazialmente ricchi per modelli linguistici multimodali. Utilizzando questo framework, indaghiamo quali proprietà dei dati simulati guidano un trasferimento efficace nel mondo reale attraverso ablazioni sistematiche di tipi di domande, mix e scale. Identifichiamo un insieme minimo di tre categorie di domande (misurazione metrica, ragionamento dipendente dalla prospettiva e tracking temporale) che si rivelano più efficaci per sviluppare un'intelligenza spaziale trasferibile, superando la copertura completa nonostante l'uso di meno tipi di domande. Queste intuizioni consentono un addestramento altamente efficiente: il nostro video LLM da 7B di parametri addestrato su soli 25K esempi simulati supera il baseline più grande da 72B e raggiunge prestazioni competitive con modelli proprietari su rigorosi benchmark di ragionamento spaziale del mondo reale. Il nostro approccio dimostra una robusta generalizzazione, mantenendo le prestazioni sulla comprensione video generale mentre mostra miglioramenti sostanziali su compiti spaziali embodied e del mondo reale.
English
Despite impressive high-level video comprehension, multimodal language models
struggle with spatial reasoning across time and space. While current spatial
training approaches rely on real-world video data, obtaining diverse footage
with precise spatial annotations remains a bottleneck. To alleviate this
bottleneck, we present SIMS-V -- a systematic data-generation framework that
leverages the privileged information of 3D simulators to create spatially-rich
video training data for multimodal language models. Using this framework, we
investigate which properties of simulated data drive effective real-world
transfer through systematic ablations of question types, mixes, and scales. We
identify a minimal set of three question categories (metric measurement,
perspective-dependent reasoning, and temporal tracking) that prove most
effective for developing transferable spatial intelligence, outperforming
comprehensive coverage despite using fewer question types. These insights
enable highly efficient training: our 7B-parameter video LLM fine-tuned on just
25K simulated examples outperforms the larger 72B baseline and achieves
competitive performance with proprietary models on rigorous real-world spatial
reasoning benchmarks. Our approach demonstrates robust generalization,
maintaining performance on general video understanding while showing
substantial improvements on embodied and real-world spatial tasks.