Латентная пространственная память для видеомоделей мира

Аннотация

Видеомировые модели, поддерживающие трехмерную пространственную согласованность между сгенерированными кадрами, обычно опираются на явную память облаков точек, построенную в RGB-пространстве. Такая конструкция является как вычислительно затратной (требуя повторного рендеринга и VAE-кодирования), так и по своей сути с потерями, поскольку проход через пиксельное пространство отбрасывает богатые признаки обученного латентного представления. В данной работе мы вводим латентную пространственную память для видеомировых моделей — постоянный 3D-кэш, который хранит информацию о сцене непосредственно в латентном пространстве диффузии, избегая реконструкции в пиксельном пространстве. Основываясь на этом, мы предлагаем Mirage — фреймворк латентной пространственной памяти, который строит память путем подъема латентных токенов в 3D через обратное проецирование с глубиной и выполняет к ней запросы синтезом новых видов через прямой варпинг в латентном пространстве. Такая единая формулировка устраняет как потерю информации при реконструкции в пиксельном пространстве, так и вычислительную нагрузку повторного кодирования и рендеринга. Эксперименты показывают, что латентная пространственная память достигает ускорения сквозной генерации видео до 10,57 раз и снижения объема памяти до 55 раз по сравнению с явными 3D-базисами. Используя геометрический априор диффузионной модели, Mirage достигает передовых результатов по WorldScore и высокого качества реконструкции на RealEstate10K.

English

Video world models that maintain 3D spatial consistency across generated frames typically rely on explicit point cloud memory constructed in RGB space. This design is both computationally expensive, requiring repeated rendering and VAE encoding, and inherently lossy, as the round trip through pixel space discards rich features of the learned latent representation. In this paper, we introduce latent spatial memory for video world models, a persistent 3D cache that stores scene information directly in the diffusion latent space, avoiding pixel-space reconstruction. Building on this, we propose Mirage, a latent-space spatial memory framework that constructs the memory by lifting latent tokens into 3D via depth-guided back-projection and queries it by synthesizing novel views through direct latent-space warping. This unified formulation eliminates both the information loss of pixel-space reconstruction and the computational burden of repeated encoding and rendering. Experiments show that latent spatial memory achieves up to 10.57times faster end-to-end video generation and 55times reduction in memory footprint relative to explicit 3D baselines. Leveraging the geometric prior of the diffusion model, Mirage attains state-of-the-art performance on WorldScore and strong reconstruction quality on RealEstate10K.