ChatPaper.aiChatPaper

ビデオワールドモデルのための潜在空間記憶

Latent Spatial Memory for Video World Models

June 8, 2026
著者: Weijie Wang, Haoyu Zhao, Yifan Yang, Feng Chen, Zeyu Zhang, Yefei He, Zicheng Duan, Donny Y. Chen, Yuqing Yang, Bohan Zhuang
cs.AI

要旨

生成フレーム間で3D空間的一貫性を維持するビデオワールドモデルは、通常、RGB空間で構築された明示的な点群メモリに依存する。この設計は、繰り返しのレンダリングとVAEエンコーディングを必要とするため計算コストが高く、またピクセル空間を経由する往復が学習された潜在表現の豊かな特徴を捨ててしまうため、本質的に損失がある。本論文では、ビデオワールドモデルのための潜在空間メモリを導入する。これは永続的な3Dキャッシュであり、拡散潜在空間に直接シーン情報を格納することで、ピクセル空間での再構成を回避する。これに基づき、我々はMirageを提案する。Mirageは潜在空間における空間メモリフレームワークであり、深度誘導のバックプロジェクションにより潜在トークンを3Dにリフティングすることでメモリを構築し、直接的な潜在空間ワーピングによる新規視点合成によってそれをクエリする。この統一的な定式化により、ピクセル空間再構成の情報損失と、繰り返しのエンコーディングおよびレンダリングの計算負荷の両方が排除される。実験により、潜在空間メモリは明示的な3Dベースラインと比較して、エンドツーエンドのビデオ生成が最大10.57倍高速化され、メモリフットプリントが55倍削減されることが示された。拡散モデルの幾何学的事前知識を活用することで、MirageはWorldScoreで最先端の性能を達成し、RealEstate10Kで強力な再構成品質を実現する。
English
Video world models that maintain 3D spatial consistency across generated frames typically rely on explicit point cloud memory constructed in RGB space. This design is both computationally expensive, requiring repeated rendering and VAE encoding, and inherently lossy, as the round trip through pixel space discards rich features of the learned latent representation. In this paper, we introduce latent spatial memory for video world models, a persistent 3D cache that stores scene information directly in the diffusion latent space, avoiding pixel-space reconstruction. Building on this, we propose Mirage, a latent-space spatial memory framework that constructs the memory by lifting latent tokens into 3D via depth-guided back-projection and queries it by synthesizing novel views through direct latent-space warping. This unified formulation eliminates both the information loss of pixel-space reconstruction and the computational burden of repeated encoding and rendering. Experiments show that latent spatial memory achieves up to 10.57times faster end-to-end video generation and 55times reduction in memory footprint relative to explicit 3D baselines. Leveraging the geometric prior of the diffusion model, Mirage attains state-of-the-art performance on WorldScore and strong reconstruction quality on RealEstate10K.