SF-V : Modèle de génération vidéo à propagation unique
SF-V: Single Forward Video Generation Model
June 6, 2024
Auteurs: Zhixing Zhang, Yanyu Li, Yushu Wu, Yanwu Xu, Anil Kag, Ivan Skorokhodov, Willi Menapace, Aliaksandr Siarohin, Junli Cao, Dimitris Metaxas, Sergey Tulyakov, Jian Ren
cs.AI
Résumé
Les modèles de génération vidéo basés sur la diffusion ont démontré un succès remarquable dans la production de vidéos haute fidélité grâce à un processus itératif de débruitage. Cependant, ces modèles nécessitent plusieurs étapes de débruitage lors de l'échantillonnage, ce qui entraîne des coûts de calcul élevés. Dans ce travail, nous proposons une nouvelle approche pour obtenir des modèles de génération vidéo en une seule étape en exploitant l'apprentissage adversarial pour affiner des modèles de diffusion vidéo pré-entraînés. Nous montrons que, grâce à l'apprentissage adversarial, le modèle de diffusion vidéo multi-étapes, à savoir Stable Video Diffusion (SVD), peut être entraîné à effectuer une seule passe avant pour synthétiser des vidéos de haute qualité, capturant à la fois les dépendances temporelles et spatiales dans les données vidéo. Des expériences approfondies démontrent que notre méthode atteint une qualité de génération compétitive pour les vidéos synthétisées avec une réduction significative de la surcharge de calcul pour le processus de débruitage (c'est-à-dire, une accélération d'environ 23 fois par rapport à SVD et 6 fois par rapport aux travaux existants, avec une qualité de génération encore meilleure), ouvrant la voie à la synthèse et à l'édition vidéo en temps réel. Plus de résultats de visualisation sont rendus publics à l'adresse https://snap-research.github.io/SF-V.
English
Diffusion-based video generation models have demonstrated remarkable success
in obtaining high-fidelity videos through the iterative denoising process.
However, these models require multiple denoising steps during sampling,
resulting in high computational costs. In this work, we propose a novel
approach to obtain single-step video generation models by leveraging
adversarial training to fine-tune pre-trained video diffusion models. We show
that, through the adversarial training, the multi-steps video diffusion model,
i.e., Stable Video Diffusion (SVD), can be trained to perform single forward
pass to synthesize high-quality videos, capturing both temporal and spatial
dependencies in the video data. Extensive experiments demonstrate that our
method achieves competitive generation quality of synthesized videos with
significantly reduced computational overhead for the denoising process (i.e.,
around 23times speedup compared with SVD and 6times speedup compared with
existing works, with even better generation quality), paving the way for
real-time video synthesis and editing. More visualization results are made
publicly available at https://snap-research.github.io/SF-V.Summary
AI-Generated Summary