Memoria Espacial Latente para Modelos de Mundo de Video

Resumen

Los modelos de mundo de video que mantienen consistencia espacial 3D entre fotogramas generados típicamente dependen de una memoria explícita de nubes de puntos construida en el espacio RGB. Este diseño es computacionalmente costoso, ya que requiere renderizado repetido y codificación VAE, e inherentemente con pérdidas, ya que el viaje de ida y vuelta a través del espacio de píxeles descarta características ricas de la representación latente aprendida. En este artículo, introducimos la memoria espacial latente para modelos de mundo de video, una caché 3D persistente que almacena información de la escena directamente en el espacio latente de difusión, evitando la reconstrucción en el espacio de píxeles. Basándonos en esto, proponemos Mirage, un marco de memoria espacial en espacio latente que construye la memoria elevando tokens latentes a 3D mediante retroproyección guiada por profundidad y la consulta sintetizando nuevas vistas a través de deformación directa en el espacio latente. Esta formulación unificada elimina tanto la pérdida de información de la reconstrucción en espacio de píxeles como la carga computacional de la codificación y renderizado repetidos. Los experimentos muestran que la memoria espacial latente logra una generación de video de extremo a extremo hasta 10.57 veces más rápida y una reducción del 55 veces en el uso de memoria en comparación con las líneas base explícitas en 3D. Aprovechando la prioridad geométrica del modelo de difusión, Mirage alcanza un rendimiento de última generación en WorldScore y una fuerte calidad de reconstrucción en RealEstate10K.

English

Video world models that maintain 3D spatial consistency across generated frames typically rely on explicit point cloud memory constructed in RGB space. This design is both computationally expensive, requiring repeated rendering and VAE encoding, and inherently lossy, as the round trip through pixel space discards rich features of the learned latent representation. In this paper, we introduce latent spatial memory for video world models, a persistent 3D cache that stores scene information directly in the diffusion latent space, avoiding pixel-space reconstruction. Building on this, we propose Mirage, a latent-space spatial memory framework that constructs the memory by lifting latent tokens into 3D via depth-guided back-projection and queries it by synthesizing novel views through direct latent-space warping. This unified formulation eliminates both the information loss of pixel-space reconstruction and the computational burden of repeated encoding and rendering. Experiments show that latent spatial memory achieves up to 10.57times faster end-to-end video generation and 55times reduction in memory footprint relative to explicit 3D baselines. Leveraging the geometric prior of the diffusion model, Mirage attains state-of-the-art performance on WorldScore and strong reconstruction quality on RealEstate10K.