SIMS-V: Addestramento Simulato su Istruzioni per la Comprensione di Video Spaziali

Abstract

Nonostante l'impressionante capacità di comprensione video di alto livello, i modelli linguistici multimodali mostrano difficoltà nel ragionamento spaziale attraverso il tempo e lo spazio. Sebbene gli attuali approcci di addestramento spaziale si basino su dati video del mondo reale, ottenere filmati diversificati con annotazioni spaziali precise rimane un collo di bottiglia. Per alleviare questo problema, presentiamo SIMS-V – un framework sistematico di generazione dati che sfrutta le informazioni privilegiate dei simulatori 3D per creare dati di addestramento video spazialmente ricchi per modelli linguistici multimodali. Utilizzando questo framework, indaghiamo quali proprietà dei dati simulati guidano un trasferimento efficace nel mondo reale attraverso ablazioni sistematiche di tipi di domande, mix e scale. Identifichiamo un insieme minimo di tre categorie di domande (misurazione metrica, ragionamento dipendente dalla prospettiva e tracking temporale) che si rivelano più efficaci per sviluppare un'intelligenza spaziale trasferibile, superando la copertura completa nonostante l'uso di meno tipi di domande. Queste intuizioni consentono un addestramento altamente efficiente: il nostro video LLM da 7B di parametri addestrato su soli 25K esempi simulati supera il baseline più grande da 72B e raggiunge prestazioni competitive con modelli proprietari su rigorosi benchmark di ragionamento spaziale del mondo reale. Il nostro approccio dimostra una robusta generalizzazione, mantenendo le prestazioni sulla comprensione video generale mentre mostra miglioramenti sostanziali su compiti spaziali embodied e del mondo reale.

English

Despite impressive high-level video comprehension, multimodal language models struggle with spatial reasoning across time and space. While current spatial training approaches rely on real-world video data, obtaining diverse footage with precise spatial annotations remains a bottleneck. To alleviate this bottleneck, we present SIMS-V -- a systematic data-generation framework that leverages the privileged information of 3D simulators to create spatially-rich video training data for multimodal language models. Using this framework, we investigate which properties of simulated data drive effective real-world transfer through systematic ablations of question types, mixes, and scales. We identify a minimal set of three question categories (metric measurement, perspective-dependent reasoning, and temporal tracking) that prove most effective for developing transferable spatial intelligence, outperforming comprehensive coverage despite using fewer question types. These insights enable highly efficient training: our 7B-parameter video LLM fine-tuned on just 25K simulated examples outperforms the larger 72B baseline and achieves competitive performance with proprietary models on rigorous real-world spatial reasoning benchmarks. Our approach demonstrates robust generalization, maintaining performance on general video understanding while showing substantial improvements on embodied and real-world spatial tasks.

SIMS-V: Addestramento Simulato su Istruzioni per la Comprensione di Video Spaziali

SIMS-V: Simulated Instruction-Tuning for Spatial Video Understanding

Abstract

Support