ChatPaper.aiChatPaper

SIMS-V : Simulation d'ajustement par instruction pour la compréhension de la vidéo spatiale

SIMS-V: Simulated Instruction-Tuning for Spatial Video Understanding

November 6, 2025
papers.authors: Ellis Brown, Arijit Ray, Ranjay Krishna, Ross Girshick, Rob Fergus, Saining Xie
cs.AI

papers.abstract

Malgré des capacités impressionnantes en compréhension vidéo de haut niveau, les modèles de langage multimodaux éprouvent des difficultés dans le raisonnement spatial à travers le temps et l'espace. Si les approches actuelles d'entraînement spatial reposent sur des données vidéo du monde réel, l'obtention de séquences diversifiées avec des annotations spatiales précises reste un goulot d'étranglement. Pour remédier à cela, nous présentons SIMS-V — un cadre systématique de génération de données qui exploite l'information privilégiée des simulateurs 3D pour créer des données d'entraînement vidéo spatialement riches pour les modèles de langage multimodaux. En utilisant ce cadre, nous étudions quelles propriétés des données simulées favorisent un transfert efficace vers le monde réel grâce à des ablations systématiques des types de questions, de leurs mélanges et de leurs échelles. Nous identifions un ensemble minimal de trois catégories de questions (mesure métrique, raisonnement dépendant de la perspective et suivi temporel) qui s'avèrent les plus efficaces pour développer une intelligence spatiale transférable, surpassant une couverture exhaustive malgré l'utilisation de moins de types de questions. Ces insights permettent un entraînement hautement efficace : notre modèle de langage vidéo de 7 milliards de paramètres, affiné sur seulement 25 000 exemples simulés, surpasse la base de référence plus grande de 72 milliards de paramètres et obtient des performances compétitives avec des modèles propriétaires sur des benchmarks rigoureux de raisonnement spatial en monde réel. Notre approche démontre une généralisation robuste, maintenant les performances en compréhension vidéo générale tout en affichant des améliorations substantielles sur les tâches spatiales incarnées et réelles.
English
Despite impressive high-level video comprehension, multimodal language models struggle with spatial reasoning across time and space. While current spatial training approaches rely on real-world video data, obtaining diverse footage with precise spatial annotations remains a bottleneck. To alleviate this bottleneck, we present SIMS-V -- a systematic data-generation framework that leverages the privileged information of 3D simulators to create spatially-rich video training data for multimodal language models. Using this framework, we investigate which properties of simulated data drive effective real-world transfer through systematic ablations of question types, mixes, and scales. We identify a minimal set of three question categories (metric measurement, perspective-dependent reasoning, and temporal tracking) that prove most effective for developing transferable spatial intelligence, outperforming comprehensive coverage despite using fewer question types. These insights enable highly efficient training: our 7B-parameter video LLM fine-tuned on just 25K simulated examples outperforms the larger 72B baseline and achieves competitive performance with proprietary models on rigorous real-world spatial reasoning benchmarks. Our approach demonstrates robust generalization, maintaining performance on general video understanding while showing substantial improvements on embodied and real-world spatial tasks.
PDF42December 2, 2025