Spatia : Génération vidéo avec mémoire spatiale actualisable

Résumé

Les modèles existants de génération vidéo peinent à maintenir une cohérence spatio-temporelle à long terme en raison de la nature dense et hautement dimensionnelle des signaux vidéo. Pour surmonter cette limitation, nous proposons Spatia, un cadre de génération vidéo doté d'une mémoire spatiale qui préserve explicitement une nuage de points 3D de la scène comme mémoire spatiale persistante. Spatia génère itérativement des séquences vidéo conditionnées par cette mémoire spatiale et la met continuellement à jour via un SLAM visuel. Cette conception par dissociation dynamique-statique améliore la cohérence spatiale tout au long du processus de génération tout en préservant la capacité du modèle à produire des entités dynamiques réalistes. De plus, Spatia permet des applications telles que le contrôle explicite de la caméra et l'édition interactive 3D, offrant ainsi un cadre géométriquement fondé pour une génération vidéo évolutive pilotée par la mémoire.

English

Existing video generation models struggle to maintain long-term spatial and temporal consistency due to the dense, high-dimensional nature of video signals. To overcome this limitation, we propose Spatia, a spatial memory-aware video generation framework that explicitly preserves a 3D scene point cloud as persistent spatial memory. Spatia iteratively generates video clips conditioned on this spatial memory and continuously updates it through visual SLAM. This dynamic-static disentanglement design enhances spatial consistency throughout the generation process while preserving the model's ability to produce realistic dynamic entities. Furthermore, Spatia enables applications such as explicit camera control and 3D-aware interactive editing, providing a geometrically grounded framework for scalable, memory-driven video generation.

Spatia : Génération vidéo avec mémoire spatiale actualisable

Spatia: Video Generation with Updatable Spatial Memory

Résumé

Support