Spatia: Generación de Video con Memoria Espacial Actualizable

Resumen

Los modelos existentes de generación de vídeo tienen dificultades para mantener la coherencia espacial y temporal a largo plazo debido a la naturaleza densa y de alta dimensión de las señales de vídeo. Para superar esta limitación, proponemos Spatia, un marco de generación de vídeo con memoria espacial que preserva explícitamente una nube de puntos 3D de la escena como memoria espacial persistente. Spatia genera iterativamente clips de vídeo condicionados por esta memoria espacial y la actualiza continuamente mediante SLAM visual. Este diseño de separación dinámico-estática mejora la coherencia espacial durante todo el proceso de generación, al tiempo que preserva la capacidad del modelo para producir entidades dinámicas realistas. Además, Spatia permite aplicaciones como el control explícito de cámara y la edición interactiva con conciencia 3D, proporcionando un marco geométricamente fundamentado para la generación de vídeo escalable basada en memoria.

English

Existing video generation models struggle to maintain long-term spatial and temporal consistency due to the dense, high-dimensional nature of video signals. To overcome this limitation, we propose Spatia, a spatial memory-aware video generation framework that explicitly preserves a 3D scene point cloud as persistent spatial memory. Spatia iteratively generates video clips conditioned on this spatial memory and continuously updates it through visual SLAM. This dynamic-static disentanglement design enhances spatial consistency throughout the generation process while preserving the model's ability to produce realistic dynamic entities. Furthermore, Spatia enables applications such as explicit camera control and 3D-aware interactive editing, providing a geometrically grounded framework for scalable, memory-driven video generation.

Spatia: Generación de Video con Memoria Espacial Actualizable

Spatia: Video Generation with Updatable Spatial Memory

Resumen

Support