SIMS-V: Simuliertes Instruction-Tuning für das Verständnis räumlicher Videos
SIMS-V: Simulated Instruction-Tuning for Spatial Video Understanding
November 6, 2025
papers.authors: Ellis Brown, Arijit Ray, Ranjay Krishna, Ross Girshick, Rob Fergus, Saining Xie
cs.AI
papers.abstract
Trotz beeindruckender Fähigkeiten im hochwertigen Videoverständnis haben multimodale Sprachmodelle Schwierigkeiten mit räumlichem Schlussfolgern über Zeit und Raum hinweg. Während aktuelle Ansätze zum räumlichen Training auf Echtwelt-Videodaten basieren, bleibt die Beschaffung vielfältigen Filmmaterials mit präzisen räumlichen Annotationen ein Engpass. Um diesen Engpass zu beheben, stellen wir SIMS-V vor – einen systematischen Datengenerierungsrahmen, der die privilegierten Informationen von 3D-Simulatoren nutzt, um räumlich reichhaltige Videotrainingsdaten für multimodale Sprachmodelle zu erstellen. Mit diesem Rahmenwerk untersuchen wir, welche Eigenschaften simulierter Daten einen effektiven Transfer in die reale Welt ermöglichen, durch systematische Ablationen von Fragetypen, -mischungen und -umfängen. Wir identifizieren einen minimalen Satz von drei Fragekategorien (metrische Messung, perspektivenabhängiges Schlussfolgern und zeitliches Verfolgen), die sich als am effektivsten für die Entwicklung übertragbarer räumlicher Intelligenz erweisen und eine umfassende Abdeckung übertreffen, obwohl weniger Fragetypen verwendet werden. Diese Erkenntnisse ermöglichen ein hocheffizientes Training: Unser auf nur 25.000 simulierten Beispielen feinabgestimmtes 7-Milliarden-Parameter-Video-LLM übertrifft die größere 72-Milliarden-Basislinie und erreicht auf rigorosen Echtwelt-Benchmarks für räumliches Schlussfolgern wettbewerbsfähige Leistungen mit proprietären Modellen. Unser Ansatz zeigt eine robuste Generalisierung, indem er die Leistung beim allgemeinen Videoverständnis beibehält und gleichzeitig erhebliche Verbesserungen bei verkörperten und realen räumlichen Aufgaben aufweist.
English
Despite impressive high-level video comprehension, multimodal language models
struggle with spatial reasoning across time and space. While current spatial
training approaches rely on real-world video data, obtaining diverse footage
with precise spatial annotations remains a bottleneck. To alleviate this
bottleneck, we present SIMS-V -- a systematic data-generation framework that
leverages the privileged information of 3D simulators to create spatially-rich
video training data for multimodal language models. Using this framework, we
investigate which properties of simulated data drive effective real-world
transfer through systematic ablations of question types, mixes, and scales. We
identify a minimal set of three question categories (metric measurement,
perspective-dependent reasoning, and temporal tracking) that prove most
effective for developing transferable spatial intelligence, outperforming
comprehensive coverage despite using fewer question types. These insights
enable highly efficient training: our 7B-parameter video LLM fine-tuned on just
25K simulated examples outperforms the larger 72B baseline and achieves
competitive performance with proprietary models on rigorous real-world spatial
reasoning benchmarks. Our approach demonstrates robust generalization,
maintaining performance on general video understanding while showing
substantial improvements on embodied and real-world spatial tasks.