SF-V: Modelo de Geração de Vídeo com Passagem Única
SF-V: Single Forward Video Generation Model
June 6, 2024
Autores: Zhixing Zhang, Yanyu Li, Yushu Wu, Yanwu Xu, Anil Kag, Ivan Skorokhodov, Willi Menapace, Aliaksandr Siarohin, Junli Cao, Dimitris Metaxas, Sergey Tulyakov, Jian Ren
cs.AI
Resumo
Modelos de geração de vídeo baseados em difusão têm demonstrado sucesso notável na obtenção de vídeos de alta fidelidade por meio do processo iterativo de remoção de ruído. No entanto, esses modelos exigem múltiplas etapas de remoção de ruído durante a amostragem, resultando em altos custos computacionais. Neste trabalho, propomos uma abordagem inovadora para obter modelos de geração de vídeo em uma única etapa, utilizando o treinamento adversarial para ajustar modelos de difusão de vídeo pré-treinados. Mostramos que, por meio do treinamento adversarial, o modelo de difusão de vídeo de múltiplas etapas, ou seja, o Stable Video Diffusion (SVD), pode ser treinado para realizar uma única passagem direta e sintetizar vídeos de alta qualidade, capturando tanto as dependências temporais quanto espaciais nos dados de vídeo. Experimentos extensivos demonstram que nosso método alcança uma qualidade de geração competitiva dos vídeos sintetizados com uma redução significativa na sobrecarga computacional do processo de remoção de ruído (ou seja, cerca de 23 vezes mais rápido em comparação com o SVD e 6 vezes mais rápido em comparação com trabalhos existentes, com uma qualidade de geração ainda melhor), abrindo caminho para a síntese e edição de vídeo em tempo real. Mais resultados visuais estão disponíveis publicamente em https://snap-research.github.io/SF-V.
English
Diffusion-based video generation models have demonstrated remarkable success
in obtaining high-fidelity videos through the iterative denoising process.
However, these models require multiple denoising steps during sampling,
resulting in high computational costs. In this work, we propose a novel
approach to obtain single-step video generation models by leveraging
adversarial training to fine-tune pre-trained video diffusion models. We show
that, through the adversarial training, the multi-steps video diffusion model,
i.e., Stable Video Diffusion (SVD), can be trained to perform single forward
pass to synthesize high-quality videos, capturing both temporal and spatial
dependencies in the video data. Extensive experiments demonstrate that our
method achieves competitive generation quality of synthesized videos with
significantly reduced computational overhead for the denoising process (i.e.,
around 23times speedup compared with SVD and 6times speedup compared with
existing works, with even better generation quality), paving the way for
real-time video synthesis and editing. More visualization results are made
publicly available at https://snap-research.github.io/SF-V.