Memória Espacial Latente para Modelos de Mundo de Vídeo

Resumo

Modelos mundiais de vídeo que mantêm consistência espacial 3D entre quadros gerados geralmente dependem de memória explícita de nuvem de pontos construída no espaço RGB. Esse design é tanto computacionalmente caro, exigindo renderização e codificação VAE repetidas, quanto inerentemente com perdas, pois o ciclo de ida e volta pelo espaço de pixels descarta características ricas da representação latente aprendida. Neste artigo, introduzimos a memória espacial latente para modelos mundiais de vídeo — um cache 3D persistente que armazena informações da cena diretamente no espaço latente de difusão, evitando a reconstrução no espaço de pixels. Com base nisso, propomos o Mirage, uma estrutura de memória espacial no espaço latente que constrói a memória elevando tokens latentes para 3D via retroprojeção guiada por profundidade e a consulta sintetizando novas vistas por meio de warping direto no espaço latente. Essa formulação unificada elimina tanto a perda de informação da reconstrução no espaço de pixels quanto a carga computacional da codificação e renderização repetidas. Experimentos mostram que a memória espacial latente alcança geração de vídeo ponta a ponta até 10,57 vezes mais rápida e redução de 55 vezes no consumo de memória em relação às linhas de base explícitas em 3D. Aproveitando o prior geométrico do modelo de difusão, o Mirage atinge desempenho de ponta no WorldScore e forte qualidade de reconstrução no RealEstate10K.

English

Video world models that maintain 3D spatial consistency across generated frames typically rely on explicit point cloud memory constructed in RGB space. This design is both computationally expensive, requiring repeated rendering and VAE encoding, and inherently lossy, as the round trip through pixel space discards rich features of the learned latent representation. In this paper, we introduce latent spatial memory for video world models, a persistent 3D cache that stores scene information directly in the diffusion latent space, avoiding pixel-space reconstruction. Building on this, we propose Mirage, a latent-space spatial memory framework that constructs the memory by lifting latent tokens into 3D via depth-guided back-projection and queries it by synthesizing novel views through direct latent-space warping. This unified formulation eliminates both the information loss of pixel-space reconstruction and the computational burden of repeated encoding and rendering. Experiments show that latent spatial memory achieves up to 10.57times faster end-to-end video generation and 55times reduction in memory footprint relative to explicit 3D baselines. Leveraging the geometric prior of the diffusion model, Mirage attains state-of-the-art performance on WorldScore and strong reconstruction quality on RealEstate10K.