SIMS-V: 공간 비디오 이해를 위한 시뮬레이션 기반 지시 튜닝
SIMS-V: Simulated Instruction-Tuning for Spatial Video Understanding
November 6, 2025
저자: Ellis Brown, Arijit Ray, Ranjay Krishna, Ross Girshick, Rob Fergus, Saining Xie
cs.AI
초록
고수준의 동영상 이해 능력이 인상적임에도 불구하고, 멀티모달 언어 모델은 시간과 공간에 걸친 공간 추론에 어려움을 겪습니다. 현재의 공간 훈련 접근법은 실제 세계의 동영상 데이터에 의존하지만, 정밀한 공간 주석이 달린 다양한 영상 확보는 여전히 병목 현상으로 남아 있습니다. 이러한 병목 현상을 완화하기 위해, 우리는 3D 시뮬레이터의 특권 정보를 활용하여 멀티모달 언어 모델을 위한 공간적으로 풍부한 동영상 훈련 데이터를 생성하는 체계적인 데이터 생성 프레임워크인 SIMS-V를 제시합니다. 이 프레임워크를 사용하여 질문 유형, 조합 및 규모에 대한 체계적인 애블레이션을 통해 시뮬레이션 데이터의 어떤 속성이 효과적인 실제 세계 전이를 주도하는지 조사합니다. 우리는 더 적은 질문 유형을 사용함에도 불구하고 포괄적인 커버리지보다 성능이 우수하며, 전이 가능한 공간 지능 개발에 가장 효과적인 세 가지 질문 범주(계량적 측정, 시점 의존적 추론, 시간적 추적)의 최소 집합을 확인했습니다. 이러한 통찰은 매우 효율적인 훈련을 가능하게 합니다: 단 25,000개의 시뮬레이션 예제로 미세 조정된 우리의 70억 파라미터 동영상 LLM은 더 큰 720억 파라미터 기준 모델을 능가하며, 엄격한 실제 세계 공간 추론 벤치마크에서 독점 모델들과 경쟁력 있는 성능을 달성합니다. 우리의 접근 방식은 일반적인 동영상 이해 작업에서의 성능을 유지하면서 구현 및 실제 세계 공간 작업에서 상당한 향상을 보여주며 강력한 일반화 능력을 입증합니다.
English
Despite impressive high-level video comprehension, multimodal language models
struggle with spatial reasoning across time and space. While current spatial
training approaches rely on real-world video data, obtaining diverse footage
with precise spatial annotations remains a bottleneck. To alleviate this
bottleneck, we present SIMS-V -- a systematic data-generation framework that
leverages the privileged information of 3D simulators to create spatially-rich
video training data for multimodal language models. Using this framework, we
investigate which properties of simulated data drive effective real-world
transfer through systematic ablations of question types, mixes, and scales. We
identify a minimal set of three question categories (metric measurement,
perspective-dependent reasoning, and temporal tracking) that prove most
effective for developing transferable spatial intelligence, outperforming
comprehensive coverage despite using fewer question types. These insights
enable highly efficient training: our 7B-parameter video LLM fine-tuned on just
25K simulated examples outperforms the larger 72B baseline and achieves
competitive performance with proprietary models on rigorous real-world spatial
reasoning benchmarks. Our approach demonstrates robust generalization,
maintaining performance on general video understanding while showing
substantial improvements on embodied and real-world spatial tasks.