ChatPaper.aiChatPaper

Spatia: Генерация видео с обновляемой пространственной памятью

Spatia: Video Generation with Updatable Spatial Memory

December 17, 2025
Авторы: Jinjing Zhao, Fangyun Wei, Zhening Liu, Hongyang Zhang, Chang Xu, Yan Lu
cs.AI

Аннотация

Существующие модели генерации видео испытывают трудности с поддержанием долгосрочной пространственной и временной согласованности из-за плотной, высокоразмерной природы видеосигналов. Чтобы преодолеть это ограничение, мы предлагаем Spatia — фреймворк для генерации видео с пространственной памятью, который явным образом сохраняет 3D-облако точек сцены в качестве персистентной пространственной памяти. Spatia итеративно генерирует видеоклипы, обусловленные этой пространственной памятью, и непрерывно обновляет её с помощью визуального SLAM. Такой дизайн с разделением статики и динамики повышает пространственную согласованность на протяжении всего процесса генерации, сохраняя при этом способность модели создавать реалистичные динамические объекты. Кроме того, Spatia позволяет реализовать такие приложения, как явное управление камерой и 3D-ориентированное интерактивное редактирование, предоставляя геометрически обоснованную основу для масштабируемой генерации видео, управляемой памятью.
English
Existing video generation models struggle to maintain long-term spatial and temporal consistency due to the dense, high-dimensional nature of video signals. To overcome this limitation, we propose Spatia, a spatial memory-aware video generation framework that explicitly preserves a 3D scene point cloud as persistent spatial memory. Spatia iteratively generates video clips conditioned on this spatial memory and continuously updates it through visual SLAM. This dynamic-static disentanglement design enhances spatial consistency throughout the generation process while preserving the model's ability to produce realistic dynamic entities. Furthermore, Spatia enables applications such as explicit camera control and 3D-aware interactive editing, providing a geometrically grounded framework for scalable, memory-driven video generation.
PDF132December 27, 2025