Videogenerierung mit prädiktiven Latents

Zusammenfassung

Der Video-Variational Autoencoder (VAE) ermöglicht latente generative Videomodellierung, indem er die visuelle Welt in kompakte raumzeitliche latente Räume abbildet und so die Trainingseffizienz und -stabilität verbessert. Während bestehende Video-VAEs eine beachtliche Rekonstruktionsqualität erreichen, führt eine weitere Optimierung der Rekonstruktion nicht zwangsläufig zu einer verbesserten generativen Leistung. Die Frage, wie die Diffundierbarkeit latenter Videorepräsentationen verbessert werden kann, bleibt eine kritische und ungelöste Herausforderung. In dieser Arbeit untersuchen wir, inspiriert von den Prinzipien der prädiktiven Weltmodellierung, das Potenzial von prädiktivem Lernen zur Verbesserung der generativen Videomodellierung. Zu diesem Zweck führen wir ein einfaches und effektives prädiktives Rekonstruktionsziel ein, das prädiktives Lernen mit Videorekonstruktion vereint. Konkret verwerfen wir zufällig zukünftige Frames und enkodieren nur partielle vergangene Beobachtungen, während der Decoder trainiert wird, gleichzeitig die beobachteten Frames zu rekonstruieren und zukünftige vorherzusagen. Dieser Ansatz fördert, dass der latente Raum zeitlich prädiktive Strukturen enkodiert und ein kohärenteres Verständnis der Videodynamik aufbaut, was die Generierungsqualität verbessert. Unser Modell, Predictive Video VAE (PV-VAE) genannt, erzielt eine überlegene Leistung bei der Videogenerierung, mit 52 % schnellerer Konvergenz und einer Verbesserung des FVD um 34,42 Punkte gegenüber dem Wan2.2-VAE auf UCF101. Darüber hinaus zeigen umfassende Analysen, dass PV-VAE nicht nur eine günstige Skalierbarkeit aufweist, bei der die generative Leistung mit dem VAE-Training steigt, sondern auch konsistente Verbesserungen im downstream-Videoverständnis erzielt. Dies unterstreicht einen latenten Raum, der zeitliche Kohärenz und Bewegungspriors effektiv erfasst.

English

Video Variational Autoencoder (VAE) enables latent video generative modeling by mapping the visual world into compact spatiotemporal latent spaces, improving training efficiency and stability. While existing video VAEs achieve commendable reconstruction quality, continued optimization of reconstruction does not necessarily translate into improved generative performance. How to enhance the diffusability of video latents remains a critical and unresolved challenge. In this work, inspired by principles of predictive world modeling, we investigate the potential of predictive learning to improve the video generative modeling. To this end, we introduce a simple and effective predictive reconstruction objective that unifies predictive learning with video reconstruction. Specifically, we randomly discard future frames and encode only partial past observations, while training the decoder to reconstruct the observed frames and predict future ones simultaneously. This design encourages the latent space to encode temporally predictive structures and build a more coherent understanding of video dynamics, thereby improving generation quality. Our model, termed Predictive Video VAE (PV-VAE), achieves superior performance on video generation, with 52% faster convergence and a 34.42 FVD improvement over the Wan2.2 VAE on UCF101. Furthermore, comprehensive analyses demonstrate that PV-VAE not only exhibits favorable scalability, with generative performance improving alongside VAE training, but also yields consistent gains in downstream video understanding, underscoring a latent space that effectively captures temporal coherence and motion priors.

Videogenerierung mit prädiktiven Latents

Video Generation with Predictive Latents

Zusammenfassung

Support