Spatia: Videogenerierung mit aktualisierbarem räumlichem Gedächtnis
Spatia: Video Generation with Updatable Spatial Memory
December 17, 2025
papers.authors: Jinjing Zhao, Fangyun Wei, Zhening Liu, Hongyang Zhang, Chang Xu, Yan Lu
cs.AI
papers.abstract
Bestehende Videogenerierungsmodelle haben Schwierigkeiten, langfristige räumliche und zeitliche Konsistenz aufgrund der dichten, hochdimensionalen Natur von Videosignalen aufrechtzuerhalten. Um diese Einschränkung zu überwinden, schlagen wir Spatia vor, ein räumlich speicherbasiertes Videogenerierungsframework, das explizit eine 3D-Szenenpunktwolke als persistenten räumlichen Speicher erhält. Spatia generiert iterativ Videoclips, die auf diesem räumlichen Speicher basieren, und aktualisiert diesen kontinuierlich durch visuelle SLAM. Dieses Design zur Trennung von Dynamischem und Statischem verbessert die räumliche Konsistenz während des gesamten Generierungsprozesses und bewahrt gleichzeitig die Fähigkeit des Modells, realistische dynamische Entitäten zu erzeugen. Darüber hinaus ermöglicht Spatia Anwendungen wie explizite Kamerasteuerung und 3D-bewusste interaktive Bearbeitung und bietet somit einen geometrisch fundierten Rahmen für skalierbare, speichergesteuerte Videogenerierung.
English
Existing video generation models struggle to maintain long-term spatial and temporal consistency due to the dense, high-dimensional nature of video signals. To overcome this limitation, we propose Spatia, a spatial memory-aware video generation framework that explicitly preserves a 3D scene point cloud as persistent spatial memory. Spatia iteratively generates video clips conditioned on this spatial memory and continuously updates it through visual SLAM. This dynamic-static disentanglement design enhances spatial consistency throughout the generation process while preserving the model's ability to produce realistic dynamic entities. Furthermore, Spatia enables applications such as explicit camera control and 3D-aware interactive editing, providing a geometrically grounded framework for scalable, memory-driven video generation.