Video4Spatial:コンテキスト誘導型ビデオ生成による視覚空間知能の実現に向けて
Video4Spatial: Towards Visuospatial Intelligence with Context-Guided Video Generation
December 2, 2025
著者: Zeqi Xiao, Yiwei Zhao, Lingxiao Li, Yushi Lan, Yu Ning, Rahul Garg, Roshni Cooper, Mohammad H. Taghavi, Xingang Pan
cs.AI
要旨
本論文では、映像生成モデルが視覚データのみを用いて、人間の認知の中核をなす能力である視覚空間的知能を発揮し得るかどうかを検証する。この目的のために、映像ベースのシーン文脈のみを条件として、複雑な空間タスクを実行可能であることを示すフレームワーク「Video4Spatial」を提案する。検証は2つのタスクで行う:シーン内を移動する「シーンナビゲーション」(カメラポーズの指示に従いながらシーンの3Dジオメトリとの整合性を保つタスク)と、意味的ローカライゼーション、指示追従、計画を要求する「物体グラウンディング」である。両タスクは深度やポーズなどの補助モダリティを用いず、映像入力のみを使用する。フレームワークとデータキュレーションにおけるシンプルかつ効果的な設計選択により、Video4Spatialは映像文脈からの強力な空間理解能力を示す:ナビゲーションを計画し対象物体をエンドツーエンドで接地すること、カメラポーズの指示に従いながら空間的一貫性を維持すること、長い文脈や学習対象外の環境へ一般化すること、が可能である。これらの結果は総合的に、映像生成モデルを汎用的な視覚空間推論へと前進させるものである。
English
We investigate whether video generative models can exhibit visuospatial intelligence, a capability central to human cognition, using only visual data. To this end, we present Video4Spatial, a framework showing that video diffusion models conditioned solely on video-based scene context can perform complex spatial tasks. We validate on two tasks: scene navigation - following camera-pose instructions while remaining consistent with 3D geometry of the scene, and object grounding - which requires semantic localization, instruction following, and planning. Both tasks use video-only inputs, without auxiliary modalities such as depth or poses. With simple yet effective design choices in the framework and data curation, Video4Spatial demonstrates strong spatial understanding from video context: it plans navigation and grounds target objects end-to-end, follows camera-pose instructions while maintaining spatial consistency, and generalizes to long contexts and out-of-domain environments. Taken together, these results advance video generative models toward general visuospatial reasoning.