Generación de Vídeo con Latentes Predictivos

Resumen

El Video Autoencoder Variacional (VAE) permite el modelado generativo de vídeo latente al mapear el mundo visual en espacios latentes espacio-temporales compactos, mejorando la eficiencia y estabilidad del entrenamiento. Si bien los VAE de vídeo existentes logran una calidad de reconstrucción encomiable, la optimización continua de la reconstrucción no se traduce necesariamente en un mejor rendimiento generativo. Cómo mejorar la capacidad de difusión de los latentes de vídeo sigue siendo un desafío crítico y sin resolver. En este trabajo, inspirados por los principios del modelado predictivo del mundo, investigamos el potencial del aprendizaje predictivo para mejorar el modelado generativo de vídeo. Con este fin, introducimos un objetivo de reconstrucción predictiva simple y efectivo que unifica el aprendizaje predictivo con la reconstrucción de vídeo. Específicamente, descartamos aleatoriamente fotogramas futuros y codificamos solo observaciones parciales del pasado, mientras entrenamos al decodificador para reconstruir los fotogramas observados y predecir los futuros simultáneamente. Este diseño fomenta que el espacio latente codifique estructuras temporalmente predictivas y construya una comprensión más coherente de la dinámica del vídeo, mejorando así la calidad de la generación. Nuestro modelo, denominado Video VAE Predictivo (PV-VAE), logra un rendimiento superior en generación de vídeo, con una convergencia un 52% más rápida y una mejora de 34.42 en FVD sobre el Wan2.2 VAE en UCF101. Además, análisis exhaustivos demuestran que PV-VAE no solo exhibe una escalabilidad favorable, con un rendimiento generativo que mejora junto con el entrenamiento del VAE, sino que también produce ganancias consistentes en la comprensión de vídeo downstream, subrayando un espacio latente que captura efectivamente la coherencia temporal y los *priors* de movimiento.

English

Video Variational Autoencoder (VAE) enables latent video generative modeling by mapping the visual world into compact spatiotemporal latent spaces, improving training efficiency and stability. While existing video VAEs achieve commendable reconstruction quality, continued optimization of reconstruction does not necessarily translate into improved generative performance. How to enhance the diffusability of video latents remains a critical and unresolved challenge. In this work, inspired by principles of predictive world modeling, we investigate the potential of predictive learning to improve the video generative modeling. To this end, we introduce a simple and effective predictive reconstruction objective that unifies predictive learning with video reconstruction. Specifically, we randomly discard future frames and encode only partial past observations, while training the decoder to reconstruct the observed frames and predict future ones simultaneously. This design encourages the latent space to encode temporally predictive structures and build a more coherent understanding of video dynamics, thereby improving generation quality. Our model, termed Predictive Video VAE (PV-VAE), achieves superior performance on video generation, with 52% faster convergence and a 34.42 FVD improvement over the Wan2.2 VAE on UCF101. Furthermore, comprehensive analyses demonstrate that PV-VAE not only exhibits favorable scalability, with generative performance improving alongside VAE training, but also yields consistent gains in downstream video understanding, underscoring a latent space that effectively captures temporal coherence and motion priors.

Generación de Vídeo con Latentes Predictivos

Video Generation with Predictive Latents

Resumen

Support