Генерация видео с использованием предсказательных латентных переменных

Аннотация

Видео-вариационный автоэнкодер (VAE) обеспечивает латентное генеративное моделирование видео путем отображения визуального мира в компактные пространственно-временные латентные пространства, повышая эффективность и стабильность обучения. Хотя существующие видео-VAE достигают достойного качества реконструкции, дальнейшая её оптимизация не обязательно приводит к улучшению генеративных характеристик. Задача повышения диффузионной пригодности видео-латентов остается ключевой и нерешенной проблемой. В данной работе, вдохновляясь принципами предиктивного моделирования мира, мы исследуем потенциал прогностического обучения для улучшения генеративного моделирования видео. Для этого мы представляем простую и эффективную целевую функцию предиктивной реконструкции, объединяющую прогностическое обучение с реконструкцией видео. В частности, мы случайным образом отбрасываем будущие кадры и кодируем только частичные прошлые наблюдения, одновременно обучая декодер восстанавливать наблюдаемые кадры и предсказывать будущие. Такой подход стимулирует латентное пространство кодировать временные предиктивные структуры и формировать более целостное понимание динамики видео, что улучшает качество генерации. Наша модель, названная Predictive Video VAE (PV-VAE), демонстрирует превосходные результаты в генерации видео: на 52% более быстрая сходимость и улучшение FVD на 34.42 пункта по сравнению с Wan2.2 VAE на UCF101. Кроме того, комплексный анализ показывает, что PV-VAE не только обладает благоприятной масштабируемостью, где генеративная производительность улучшается вместе с обучением VAE, но и обеспечивает стабильный прирост в последующих задачах понимания видео, подтверждая эффективность латентного пространства в захвате временной согласованности и априорных данных о движении.

English

Video Variational Autoencoder (VAE) enables latent video generative modeling by mapping the visual world into compact spatiotemporal latent spaces, improving training efficiency and stability. While existing video VAEs achieve commendable reconstruction quality, continued optimization of reconstruction does not necessarily translate into improved generative performance. How to enhance the diffusability of video latents remains a critical and unresolved challenge. In this work, inspired by principles of predictive world modeling, we investigate the potential of predictive learning to improve the video generative modeling. To this end, we introduce a simple and effective predictive reconstruction objective that unifies predictive learning with video reconstruction. Specifically, we randomly discard future frames and encode only partial past observations, while training the decoder to reconstruct the observed frames and predict future ones simultaneously. This design encourages the latent space to encode temporally predictive structures and build a more coherent understanding of video dynamics, thereby improving generation quality. Our model, termed Predictive Video VAE (PV-VAE), achieves superior performance on video generation, with 52% faster convergence and a 34.42 FVD improvement over the Wan2.2 VAE on UCF101. Furthermore, comprehensive analyses demonstrate that PV-VAE not only exhibits favorable scalability, with generative performance improving alongside VAE training, but also yields consistent gains in downstream video understanding, underscoring a latent space that effectively captures temporal coherence and motion priors.

Генерация видео с использованием предсказательных латентных переменных

Video Generation with Predictive Latents

Аннотация

Support