Mémoire Spatiale Latente pour Modèles du Monde Vidéo

Résumé

Les modèles de monde vidéo qui maintiennent une cohérence spatiale 3D entre les images générées reposent généralement sur une mémoire explicite de nuages de points construite dans l'espace RVB. Cette conception est à la fois coûteuse en calcul, nécessitant un rendu répété et un encodage VAE, et intrinsèquement avec perte, car le passage par l'espace pixel élimine les caractéristiques riches de la représentation latente apprise. Dans cet article, nous introduisons la mémoire spatiale latente pour les modèles de monde vidéo, un cache 3D persistant qui stocke directement l'information de scène dans l'espace latent de diffusion, évitant ainsi la reconstruction dans l'espace pixel. En nous appuyant sur cela, nous proposons Mirage, un cadre de mémoire spatiale dans l'espace latent qui construit la mémoire en élevant les tokens latents en 3D via une rétroprojection guidée par la profondeur et l'interroge en synthétisant de nouvelles vues par un warping direct dans l'espace latent. Cette formulation unifiée élimine à la fois la perte d'information de la reconstruction dans l'espace pixel et la charge computationnelle du ré-encodage et du rendu répétés. Les expériences montrent que la mémoire spatiale latente atteint une génération vidéo de bout en bout jusqu'à 10,57 fois plus rapide et une réduction de l'empreinte mémoire de 55 fois par rapport aux références explicites en 3D. En exploitant le prior géométrique du modèle de diffusion, Mirage obtient des performances de pointe sur WorldScore et une qualité de reconstruction robuste sur RealEstate10K.

English

Video world models that maintain 3D spatial consistency across generated frames typically rely on explicit point cloud memory constructed in RGB space. This design is both computationally expensive, requiring repeated rendering and VAE encoding, and inherently lossy, as the round trip through pixel space discards rich features of the learned latent representation. In this paper, we introduce latent spatial memory for video world models, a persistent 3D cache that stores scene information directly in the diffusion latent space, avoiding pixel-space reconstruction. Building on this, we propose Mirage, a latent-space spatial memory framework that constructs the memory by lifting latent tokens into 3D via depth-guided back-projection and queries it by synthesizing novel views through direct latent-space warping. This unified formulation eliminates both the information loss of pixel-space reconstruction and the computational burden of repeated encoding and rendering. Experiments show that latent spatial memory achieves up to 10.57times faster end-to-end video generation and 55times reduction in memory footprint relative to explicit 3D baselines. Leveraging the geometric prior of the diffusion model, Mirage attains state-of-the-art performance on WorldScore and strong reconstruction quality on RealEstate10K.