SIMS-V: 空間的ビデオ理解のためのシミュレーション指導調整
SIMS-V: Simulated Instruction-Tuning for Spatial Video Understanding
November 6, 2025
著者: Ellis Brown, Arijit Ray, Ranjay Krishna, Ross Girshick, Rob Fergus, Saining Xie
cs.AI
要旨
高精度な動画理解能力にもかかわらず、マルチモーダル言語モデルは時間と空間にわたる空間推論に苦戦している。現在の空間訓練アプローチは実世界の動画データに依存しているが、精密な空間注釈を伴う多様な映像の取得がボトルネックとなっている。この課題を解決するため、我々はSIMS-Vを提案する——3Dシミュレータの特権情報を活用し、マルチモーダル言語モデル向けに空間的に豊富な動画訓練データを生成する体系的データ生成フレームワークである。本フレームワークを用いて、質問タイプ・混合比率・データ規模の系統的な ablation 実験を通じて、シミュレーションデータのどの特性が実世界への効果的な転移を促進するかを検証する。我々は、より少ない質問タイプにもかかわらず網羅的カバレッジを上回る、転移可能な空間知能を育成するのに最も効果的な3つの質問カテゴリ(計測測定、視点依存推論、時間的追跡)からなる最小セットを特定した。これらの知見により、極めて効率的な訓練が可能となる——2万5千のシミュレーション例でファインチューニングした7Bパラメータの動画LLMは、大規模な72Bベースラインを上回り、厳格な実世界空間推論ベンチマークにおいてプロプライエタリモデルと競合する性能を達成した。本アプローチは頑健な一般化能力を示し、一般的な動画理解タスクでの性能を維持しながら、具身体化タスクおよび実世界空間タスクにおいて大幅な改善を見せている。
English
Despite impressive high-level video comprehension, multimodal language models
struggle with spatial reasoning across time and space. While current spatial
training approaches rely on real-world video data, obtaining diverse footage
with precise spatial annotations remains a bottleneck. To alleviate this
bottleneck, we present SIMS-V -- a systematic data-generation framework that
leverages the privileged information of 3D simulators to create spatially-rich
video training data for multimodal language models. Using this framework, we
investigate which properties of simulated data drive effective real-world
transfer through systematic ablations of question types, mixes, and scales. We
identify a minimal set of three question categories (metric measurement,
perspective-dependent reasoning, and temporal tracking) that prove most
effective for developing transferable spatial intelligence, outperforming
comprehensive coverage despite using fewer question types. These insights
enable highly efficient training: our 7B-parameter video LLM fine-tuned on just
25K simulated examples outperforms the larger 72B baseline and achieves
competitive performance with proprietary models on rigorous real-world spatial
reasoning benchmarks. Our approach demonstrates robust generalization,
maintaining performance on general video understanding while showing
substantial improvements on embodied and real-world spatial tasks.