Latent Ruimtelijk Geheugen voor Videowereldmodellen

Samenvatting

Videowereldmodellen die 3D-ruimtelijke consistentie behouden over gegenereerde frames, vertrouwen doorgaans op expliciet puntwolkgeheugen dat is opgebouwd in RGB-ruimte. Dit ontwerp is zowel rekenkundig duur, omdat het herhaaldelijk renderen en VAE-codering vereist, als inherent verlieslatend, omdat de heen-en-weerbeweging door de pixelruimte rijke kenmerken van de geleerde latente representatie verwijdert. In dit artikel introduceren we latente ruimtelijke geheugen voor videowereldmodellen, een persistent 3D-cache die scène-informatie direct in de diffusie-latente ruimte opslaat, waardoor reconstructie in de pixelruimte wordt vermeden. Hierop voortbouwend stellen we Mirage voor, een latent-ruimtelijk geheugenframework dat het geheugen construeert door latente tokens via dieptegeleide terugprojectie naar 3D te tillen en het bevraagt door nieuwe aanzichten te synthetiseren via directe latente-ruimtevervorming. Deze uniforme formulering elimineert zowel het informatieverlies van pixelruimtereconstructie als de rekenlast van herhaalde codering en rendering. Experimenten tonen aan dat latente ruimtelijke geheugen tot 10,57 keer snellere end-to-end videogeneratie en 55 keer reductie in geheugenvoetafdruk bereikt ten opzichte van expliciete 3D-baselines. Door gebruik te maken van het geometrische prior van het diffusiemodel behaalt Mirage state-of-the-art prestaties op WorldScore en sterke reconstructiekwaliteit op RealEstate10K.

English

Video world models that maintain 3D spatial consistency across generated frames typically rely on explicit point cloud memory constructed in RGB space. This design is both computationally expensive, requiring repeated rendering and VAE encoding, and inherently lossy, as the round trip through pixel space discards rich features of the learned latent representation. In this paper, we introduce latent spatial memory for video world models, a persistent 3D cache that stores scene information directly in the diffusion latent space, avoiding pixel-space reconstruction. Building on this, we propose Mirage, a latent-space spatial memory framework that constructs the memory by lifting latent tokens into 3D via depth-guided back-projection and queries it by synthesizing novel views through direct latent-space warping. This unified formulation eliminates both the information loss of pixel-space reconstruction and the computational burden of repeated encoding and rendering. Experiments show that latent spatial memory achieves up to 10.57times faster end-to-end video generation and 55times reduction in memory footprint relative to explicit 3D baselines. Leveraging the geometric prior of the diffusion model, Mirage attains state-of-the-art performance on WorldScore and strong reconstruction quality on RealEstate10K.