SF-V: Enkelvoudig Voorwaarts Videogeneratiemodel
SF-V: Single Forward Video Generation Model
June 6, 2024
Auteurs: Zhixing Zhang, Yanyu Li, Yushu Wu, Yanwu Xu, Anil Kag, Ivan Skorokhodov, Willi Menapace, Aliaksandr Siarohin, Junli Cao, Dimitris Metaxas, Sergey Tulyakov, Jian Ren
cs.AI
Samenvatting
Diffusiegebaseerde videogeneratiemodellen hebben opmerkelijke successen behaald
in het verkrijgen van hoogwaardige video's via het iteratieve denoisingsproces.
Deze modellen vereisen echter meerdere denoisingstappen tijdens het sampling,
wat resulteert in hoge rekenkosten. In dit werk stellen we een nieuwe aanpak voor
om enkelstaps videogeneratiemodellen te verkrijgen door gebruik te maken van
adversarial training om vooraf getrainde videodiffusiemodellen te finetunen. We tonen aan
dat, door middel van adversarial training, het meerstaps videodiffusiemodel,
namelijk Stable Video Diffusion (SVD), getraind kan worden om in één enkele voorwaartse
doorgang hoogwaardige video's te synthetiseren, waarbij zowel temporele als ruimtelijke
afhankelijkheden in de videodata worden vastgelegd. Uitgebreide experimenten tonen aan dat onze
methode een competitieve generatiekwaliteit van gesynthetiseerde video's bereikt met
aanzienlijk verminderde rekenkosten voor het denoisingsproces (d.w.z.,
ongeveer 23 keer versnelling vergeleken met SVD en 6 keer versnelling vergeleken met
bestaande werken, met zelfs betere generatiekwaliteit), wat de weg vrijmaakt voor
real-time videosynthese en -bewerking. Meer visualisatieresultaten zijn
openbaar beschikbaar gemaakt op https://snap-research.github.io/SF-V.
English
Diffusion-based video generation models have demonstrated remarkable success
in obtaining high-fidelity videos through the iterative denoising process.
However, these models require multiple denoising steps during sampling,
resulting in high computational costs. In this work, we propose a novel
approach to obtain single-step video generation models by leveraging
adversarial training to fine-tune pre-trained video diffusion models. We show
that, through the adversarial training, the multi-steps video diffusion model,
i.e., Stable Video Diffusion (SVD), can be trained to perform single forward
pass to synthesize high-quality videos, capturing both temporal and spatial
dependencies in the video data. Extensive experiments demonstrate that our
method achieves competitive generation quality of synthesized videos with
significantly reduced computational overhead for the denoising process (i.e.,
around 23times speedup compared with SVD and 6times speedup compared with
existing works, with even better generation quality), paving the way for
real-time video synthesis and editing. More visualization results are made
publicly available at https://snap-research.github.io/SF-V.