Spatia: Generazione di Video con Memoria Spaziale Aggiornabile
Spatia: Video Generation with Updatable Spatial Memory
December 17, 2025
Autori: Jinjing Zhao, Fangyun Wei, Zhening Liu, Hongyang Zhang, Chang Xu, Yan Lu
cs.AI
Abstract
I modelli esistenti per la generazione video faticano a mantenere una coerenza spaziale e temporale a lungo termine a causa della natura densa e ad alta dimensionalità dei segnali video. Per superare questa limitazione, proponiamo Spatia, un framework di generazione video con memoria spaziale che preserva esplicitamente una nuvola di punti 3D della scena come memoria spaziale persistente. Spatia genera iterativamente clip video condizionati da questa memoria spaziale e la aggiorna continuamente attraverso tecniche di SLAM visivo. Questo design di separazione dinamico-statico migliora la coerenza spaziale durante l'intero processo di generazione, preservando allo stesso tempo la capacità del modello di produrre entità dinamiche realistiche. Inoltre, Spatia consente applicazioni come il controllo esplicito della telecamera e l'editing interattivo 3D-aware, fornendo un framework geometricamente fondato per una generazione video scalabile guidata dalla memoria.
English
Existing video generation models struggle to maintain long-term spatial and temporal consistency due to the dense, high-dimensional nature of video signals. To overcome this limitation, we propose Spatia, a spatial memory-aware video generation framework that explicitly preserves a 3D scene point cloud as persistent spatial memory. Spatia iteratively generates video clips conditioned on this spatial memory and continuously updates it through visual SLAM. This dynamic-static disentanglement design enhances spatial consistency throughout the generation process while preserving the model's ability to produce realistic dynamic entities. Furthermore, Spatia enables applications such as explicit camera control and 3D-aware interactive editing, providing a geometrically grounded framework for scalable, memory-driven video generation.