ChatPaper.aiChatPaper

SIMS-V: Gesimuleerde instructie-afstemming voor ruimtelijk videobegrip

SIMS-V: Simulated Instruction-Tuning for Spatial Video Understanding

November 6, 2025
Auteurs: Ellis Brown, Arijit Ray, Ranjay Krishna, Ross Girshick, Rob Fergus, Saining Xie
cs.AI

Samenvatting

Ondanks indrukwekkend hoogwaardige videocomprehensie hebben multimodale taalmodellen moeite met ruimtelijk redeneren in tijd en ruimte. Hoewel huidige ruimtelijke trainingsmethoden vertrouwen op real-world videogegevens, blijft het verkrijgen van diverse beelden met precieze ruimtelijke annotaties een knelpunt. Om dit knelpunt te verlichten, presenteren we SIMS-V – een systematisch datageneratieraamwerk dat gebruikmaakt van de geprivilegieerde informatie van 3D-simulators om ruimtelijk rijke videotrainingsdata voor multimodale taalmodellen te creëren. Met dit raamwerk onderzoeken we welke eigenschappen van gesimuleerde data effectieve real-world transfer teweegbrengen door middel van systematische ablatiestudies van vraagtypen, -mengsels en -schalen. We identificeren een minimale set van drie vraagcategorieën (metrische meting, perspectiefafhankelijk redeneren en temporeel volgen) die het meest effectief blijken voor het ontwikkelen van overdraagbare ruimtelijke intelligentie, waarbij ze uitgebreide dekking overtreffen ondanks het gebruik van minder vraagtypen. Deze inzichten maken zeer efficiënte training mogelijk: ons 7B-parameter videotaalmodel, gefinetuned op slechts 25.000 gesimuleerde voorbeelden, presteert beter dan de grotere 72B-basislijn en behaalt competitieve prestaties met propriëtaire modellen op rigoureuze real-world ruimtelijke redeneerbenchmarks. Onze aanpak demonstreert robuuste generalisatie, waarbij de prestaties op algemeen videobegrip behouden blijven terwijl er aanzienlijke verbeteringen worden getoond op belichaamde en real-world ruimtelijke taken.
English
Despite impressive high-level video comprehension, multimodal language models struggle with spatial reasoning across time and space. While current spatial training approaches rely on real-world video data, obtaining diverse footage with precise spatial annotations remains a bottleneck. To alleviate this bottleneck, we present SIMS-V -- a systematic data-generation framework that leverages the privileged information of 3D simulators to create spatially-rich video training data for multimodal language models. Using this framework, we investigate which properties of simulated data drive effective real-world transfer through systematic ablations of question types, mixes, and scales. We identify a minimal set of three question categories (metric measurement, perspective-dependent reasoning, and temporal tracking) that prove most effective for developing transferable spatial intelligence, outperforming comprehensive coverage despite using fewer question types. These insights enable highly efficient training: our 7B-parameter video LLM fine-tuned on just 25K simulated examples outperforms the larger 72B baseline and achieves competitive performance with proprietary models on rigorous real-world spatial reasoning benchmarks. Our approach demonstrates robust generalization, maintaining performance on general video understanding while showing substantial improvements on embodied and real-world spatial tasks.
PDF42December 2, 2025