ChatPaper.aiChatPaper

Spatia: 更新可能な空間メモリを用いたビデオ生成

Spatia: Video Generation with Updatable Spatial Memory

December 17, 2025
著者: Jinjing Zhao, Fangyun Wei, Zhening Liu, Hongyang Zhang, Chang Xu, Yan Lu
cs.AI

要旨

既存の動画生成モデルは、映像信号の高密度かつ高次元な性質により、長期的な空間的・時間的一貫性の維持に課題を抱えている。この課題を克服するため、我々は空間メモリを明示的に保持する動画生成フレームワーク「Spatia」を提案する。Spatiaは3Dシーンポイントクラウドを永続的な空間メモリとして保持し、この空間メモリを条件として動画クリップを反復的に生成するとともに、視覚的SLAMを通じて継続的にメモリを更新する。この動的・静的分離設計により、生成プロセス全体での空間的一貫性が向上しつつ、現実的な動的エンティティの生成能力が維持される。さらにSpatiaは、明示的なカメラ制御や3D認識インタラクティブ編集などの応用を可能にし、スケーラブルなメモリ駆動型動画生成のための幾何学的に基礎付けられたフレームワークを提供する。
English
Existing video generation models struggle to maintain long-term spatial and temporal consistency due to the dense, high-dimensional nature of video signals. To overcome this limitation, we propose Spatia, a spatial memory-aware video generation framework that explicitly preserves a 3D scene point cloud as persistent spatial memory. Spatia iteratively generates video clips conditioned on this spatial memory and continuously updates it through visual SLAM. This dynamic-static disentanglement design enhances spatial consistency throughout the generation process while preserving the model's ability to produce realistic dynamic entities. Furthermore, Spatia enables applications such as explicit camera control and 3D-aware interactive editing, providing a geometrically grounded framework for scalable, memory-driven video generation.
PDF132December 27, 2025