SF-V: Modello di Generazione Video a Singolo Passo in Avanti
SF-V: Single Forward Video Generation Model
June 6, 2024
Autori: Zhixing Zhang, Yanyu Li, Yushu Wu, Yanwu Xu, Anil Kag, Ivan Skorokhodov, Willi Menapace, Aliaksandr Siarohin, Junli Cao, Dimitris Metaxas, Sergey Tulyakov, Jian Ren
cs.AI
Abstract
I modelli di generazione video basati su diffusione hanno dimostrato un successo notevole nel produrre video ad alta fedeltà attraverso il processo iterativo di denoising. Tuttavia, questi modelli richiedono più passaggi di denoising durante il campionamento, risultando in costi computazionali elevati. In questo lavoro, proponiamo un approccio innovativo per ottenere modelli di generazione video a singolo passaggio, sfruttando l'addestramento adversarial per affinare modelli di diffusione video pre-addestrati. Dimostriamo che, attraverso l'addestramento adversarial, il modello di diffusione video a più passaggi, ovvero Stable Video Diffusion (SVD), può essere addestrato per eseguire un singolo passaggio in avanti e sintetizzare video di alta qualità, catturando sia le dipendenze temporali che spaziali nei dati video. Esperimenti estesi dimostrano che il nostro metodo raggiunge una qualità di generazione competitiva per i video sintetizzati, con un sovraccarico computazionale significativamente ridotto per il processo di denoising (ovvero, un'accelerazione di circa 23 volte rispetto a SVD e 6 volte rispetto ai lavori esistenti, con una qualità di generazione persino migliore), aprendo la strada alla sintesi e all'editing video in tempo reale. Ulteriori risultati di visualizzazione sono resi pubblicamente disponibili all'indirizzo https://snap-research.github.io/SF-V.
English
Diffusion-based video generation models have demonstrated remarkable success
in obtaining high-fidelity videos through the iterative denoising process.
However, these models require multiple denoising steps during sampling,
resulting in high computational costs. In this work, we propose a novel
approach to obtain single-step video generation models by leveraging
adversarial training to fine-tune pre-trained video diffusion models. We show
that, through the adversarial training, the multi-steps video diffusion model,
i.e., Stable Video Diffusion (SVD), can be trained to perform single forward
pass to synthesize high-quality videos, capturing both temporal and spatial
dependencies in the video data. Extensive experiments demonstrate that our
method achieves competitive generation quality of synthesized videos with
significantly reduced computational overhead for the denoising process (i.e.,
around 23times speedup compared with SVD and 6times speedup compared with
existing works, with even better generation quality), paving the way for
real-time video synthesis and editing. More visualization results are made
publicly available at https://snap-research.github.io/SF-V.