SF-V: Einzelnes Vorwärts-Videogenerierungsmodell
SF-V: Single Forward Video Generation Model
June 6, 2024
Autoren: Zhixing Zhang, Yanyu Li, Yushu Wu, Yanwu Xu, Anil Kag, Ivan Skorokhodov, Willi Menapace, Aliaksandr Siarohin, Junli Cao, Dimitris Metaxas, Sergey Tulyakov, Jian Ren
cs.AI
Zusammenfassung
Diffusionsbasierte Videogenerierungsmodelle haben bemerkenswerten Erfolg bei der Erzielung hochwertiger Videos durch den iterativen Denoising-Prozess gezeigt. Diese Modelle erfordern jedoch mehrere Denoising-Schritte während der Probenahme, was zu hohen Rechenaufwänden führt. In dieser Arbeit schlagen wir einen neuartigen Ansatz vor, um Ein-Schritt-Videogenerierungsmodelle zu erhalten, indem wir adversariales Training nutzen, um vortrainierte Videodiffusionsmodelle feinzustimmen. Wir zeigen, dass durch das adversariale Training das mehrstufige Videodiffusionsmodell, d.h. Stable Video Diffusion (SVD), trainiert werden kann, um einen einzigen Vorwärtsschritt auszuführen, um hochwertige Videos zu synthetisieren, die sowohl zeitliche als auch räumliche Abhängigkeiten in den Videodaten erfassen. Umfangreiche Experimente zeigen, dass unsere Methode eine wettbewerbsfähige Generierungsqualität synthetisierter Videos mit signifikant reduziertem Rechenaufwand für den Denoising-Prozess erreicht (d.h. etwa 23-fache Beschleunigung im Vergleich zu SVD und 6-fache Beschleunigung im Vergleich zu bestehenden Arbeiten, bei sogar besserer Generierungsqualität), was den Weg für Echtzeit-Videosynthese und -bearbeitung ebnet. Weitere Visualisierungsergebnisse sind öffentlich unter https://snap-research.github.io/SF-V verfügbar.
English
Diffusion-based video generation models have demonstrated remarkable success
in obtaining high-fidelity videos through the iterative denoising process.
However, these models require multiple denoising steps during sampling,
resulting in high computational costs. In this work, we propose a novel
approach to obtain single-step video generation models by leveraging
adversarial training to fine-tune pre-trained video diffusion models. We show
that, through the adversarial training, the multi-steps video diffusion model,
i.e., Stable Video Diffusion (SVD), can be trained to perform single forward
pass to synthesize high-quality videos, capturing both temporal and spatial
dependencies in the video data. Extensive experiments demonstrate that our
method achieves competitive generation quality of synthesized videos with
significantly reduced computational overhead for the denoising process (i.e.,
around 23times speedup compared with SVD and 6times speedup compared with
existing works, with even better generation quality), paving the way for
real-time video synthesis and editing. More visualization results are made
publicly available at https://snap-research.github.io/SF-V.Summary
AI-Generated Summary