ChatPaper.aiChatPaper

스파티아: 업데이트 가능한 공간 메모리를 활용한 비디오 생성

Spatia: Video Generation with Updatable Spatial Memory

December 17, 2025
저자: Jinjing Zhao, Fangyun Wei, Zhening Liu, Hongyang Zhang, Chang Xu, Yan Lu
cs.AI

초록

기존 비디오 생성 모델은 비디오 신호의 밀집하고 고차원적인 특성으로 인해 장기간의 공간적 및 시간적 일관성을 유지하는 데 어려움을 겪습니다. 이러한 한계를 극복하기 위해 본 연구에서는 지속적인 공간 메모리로 3D 장면 포인트 클라우드를 명시적으로 보존하는 공간 메모리 인식 비디오 생성 프레임워크인 Spatia를 제안합니다. Spatia는 이 공간 메모리를 조건으로 비디오 클립을 반복적으로 생성하고 시각적 SLAM을 통해 지속적으로 업데이트합니다. 이러한 동적-정적 분리 설계는 현실적인 동적 개체 생성 능력을 보존하면서 생성 과정 전반에 걸친 공간 일관성을 향상시킵니다. 더 나아가 Spatia는 명시적 카메라 제어 및 3D 인식 대화형 편집과 같은 응용을 가능하게 하여 확장 가능한 메모리 주도 비디오 생성을 위한 기하학적 토대를 제공합니다.
English
Existing video generation models struggle to maintain long-term spatial and temporal consistency due to the dense, high-dimensional nature of video signals. To overcome this limitation, we propose Spatia, a spatial memory-aware video generation framework that explicitly preserves a 3D scene point cloud as persistent spatial memory. Spatia iteratively generates video clips conditioned on this spatial memory and continuously updates it through visual SLAM. This dynamic-static disentanglement design enhances spatial consistency throughout the generation process while preserving the model's ability to produce realistic dynamic entities. Furthermore, Spatia enables applications such as explicit camera control and 3D-aware interactive editing, providing a geometrically grounded framework for scalable, memory-driven video generation.
PDF132December 27, 2025