Génération de vidéos avec des latents prédictifs

Résumé

Le Variational Autoencoder (VAE) pour vidéos permet la modélisation générative de vidéos latentes en cartographiant le monde visuel dans des espaces latents spatio-temporels compacts, améliorant ainsi l'efficacité et la stabilité de l'entraînement. Bien que les VAE vidéo existants atteignent une qualité de reconstruction louable, l'optimisation continue de la reconstruction ne se traduit pas nécessairement par une amélioration des performances génératives. La question de savoir comment améliorer la diffusabilité des latentes vidéo reste un défi critique et non résolu. Dans ce travail, inspirés par les principes de la modélisation prédictive du monde, nous étudions le potentiel de l'apprentissage prédictif pour améliorer la modélisation générative vidéo. Pour cela, nous introduisons un objectif de reconstruction prédictif simple et efficace qui unifie l'apprentissage prédictif avec la reconstruction vidéo. Plus précisément, nous éliminons aléatoirement les images futures et encodons uniquement des observations partielles passées, tout en entraînant le décodeur à reconstruire les images observées et à prédire les images futures simultanément. Cette conception encourage l'espace latent à encoder des structures temporelles prédictives et à construire une compréhension plus cohérente de la dynamique vidéo, améliorant ainsi la qualité de la génération. Notre modèle, nommé VAE Vidéo Prédictif (PV-VAE), obtient des performances supérieures en génération vidéo, avec une convergence 52 % plus rapide et une amélioration du FVD de 34,42 par rapport au VAE Wan2.2 sur UCF101. De plus, des analyses approfondies démontrent que PV-VAE présente non seulement une évolutivité favorable, avec des performances génératives qui s'améliorent parallèlement à l'entraînement du VAE, mais produit également des gains constants en compréhension vidéo en aval, soulignant un espace latent qui capture efficacement la cohérence temporelle et les a priori de mouvement.

English

Video Variational Autoencoder (VAE) enables latent video generative modeling by mapping the visual world into compact spatiotemporal latent spaces, improving training efficiency and stability. While existing video VAEs achieve commendable reconstruction quality, continued optimization of reconstruction does not necessarily translate into improved generative performance. How to enhance the diffusability of video latents remains a critical and unresolved challenge. In this work, inspired by principles of predictive world modeling, we investigate the potential of predictive learning to improve the video generative modeling. To this end, we introduce a simple and effective predictive reconstruction objective that unifies predictive learning with video reconstruction. Specifically, we randomly discard future frames and encode only partial past observations, while training the decoder to reconstruct the observed frames and predict future ones simultaneously. This design encourages the latent space to encode temporally predictive structures and build a more coherent understanding of video dynamics, thereby improving generation quality. Our model, termed Predictive Video VAE (PV-VAE), achieves superior performance on video generation, with 52% faster convergence and a 34.42 FVD improvement over the Wan2.2 VAE on UCF101. Furthermore, comprehensive analyses demonstrate that PV-VAE not only exhibits favorable scalability, with generative performance improving alongside VAE training, but also yields consistent gains in downstream video understanding, underscoring a latent space that effectively captures temporal coherence and motion priors.

Génération de vidéos avec des latents prédictifs

Video Generation with Predictive Latents

Résumé

Support