ChatPaper.aiChatPaper

SIMS-V: Ajuste de Instrucciones Simulado para la Comprensión de Videos Espaciales

SIMS-V: Simulated Instruction-Tuning for Spatial Video Understanding

November 6, 2025
Autores: Ellis Brown, Arijit Ray, Ranjay Krishna, Ross Girshick, Rob Fergus, Saining Xie
cs.AI

Resumen

A pesar de su impresionante capacidad de comprensión de vídeo a alto nivel, los modelos lingüísticos multimodales presentan dificultades en el razonamiento espacial a través del tiempo y el espacio. Si bien los enfoques actuales de entrenamiento espacial se basan en datos de vídeo del mundo real, la obtención de material diverso con anotaciones espaciales precisas sigue siendo un cuello de botella. Para aliviar este problema, presentamos SIMS-V: un marco sistemático de generación de datos que aprovecha la información privilegiada de los simuladores 3D para crear datos de entrenamiento de vídeo espacialmente ricos para modelos lingüísticos multimodales. Utilizando este marco, investigamos qué propiedades de los datos simulados impulsan una transferencia efectiva al mundo real mediante ablaciones sistemáticas de tipos de preguntas, mezclas y escalas. Identificamos un conjunto mínimo de tres categorías de preguntas (medición métrica, razonamiento dependiente de la perspectiva y seguimiento temporal) que demuestran ser más efectivas para desarrollar inteligencia espacial transferible, superando a una cobertura exhaustiva a pesar de utilizar menos tipos de preguntas. Estas ideas permiten un entrenamiento altamente eficiente: nuestro modelo de lenguaje grande (LLM) de vídeo de 7.000 millones de parámetros, ajustado con solo 25.000 ejemplos simulados, supera a la línea base más grande de 72.000 millones y logra un rendimiento competitivo con modelos propietarios en rigurosos puntos de referencia de razonamiento espacial del mundo real. Nuestro enfoque demuestra una generalización robusta, manteniendo el rendimiento en la comprensión general de vídeo mientras muestra mejoras sustanciales en tareas espaciales embodadas y del mundo real.
English
Despite impressive high-level video comprehension, multimodal language models struggle with spatial reasoning across time and space. While current spatial training approaches rely on real-world video data, obtaining diverse footage with precise spatial annotations remains a bottleneck. To alleviate this bottleneck, we present SIMS-V -- a systematic data-generation framework that leverages the privileged information of 3D simulators to create spatially-rich video training data for multimodal language models. Using this framework, we investigate which properties of simulated data drive effective real-world transfer through systematic ablations of question types, mixes, and scales. We identify a minimal set of three question categories (metric measurement, perspective-dependent reasoning, and temporal tracking) that prove most effective for developing transferable spatial intelligence, outperforming comprehensive coverage despite using fewer question types. These insights enable highly efficient training: our 7B-parameter video LLM fine-tuned on just 25K simulated examples outperforms the larger 72B baseline and achieves competitive performance with proprietary models on rigorous real-world spatial reasoning benchmarks. Our approach demonstrates robust generalization, maintaining performance on general video understanding while showing substantial improvements on embodied and real-world spatial tasks.
PDF42December 2, 2025