SF-V: 단일 순방향 비디오 생성 모델
SF-V: Single Forward Video Generation Model
June 6, 2024
저자: Zhixing Zhang, Yanyu Li, Yushu Wu, Yanwu Xu, Anil Kag, Ivan Skorokhodov, Willi Menapace, Aliaksandr Siarohin, Junli Cao, Dimitris Metaxas, Sergey Tulyakov, Jian Ren
cs.AI
초록
디퓨전 기반 비디오 생성 모델은 반복적인 노이즈 제거 과정을 통해 높은 충실도의 비디오를 얻는 데 있어서 놀라운 성공을 거두었습니다. 그러나 이러한 모델들은 샘플링 과정에서 여러 번의 노이즈 제거 단계를 필요로 하기 때문에 높은 계산 비용이 발생합니다. 본 연구에서는 사전 훈련된 비디오 디퓨전 모델을 적대적 학습을 통해 미세 조정하여 단일 단계 비디오 생성 모델을 얻는 새로운 접근 방식을 제안합니다. 우리는 적대적 학습을 통해 다단계 비디오 디퓨전 모델, 즉 Stable Video Diffusion(SVD)이 단일 순방향 패스로 고품질 비디오를 합성할 수 있도록 훈련될 수 있으며, 이를 통해 비디오 데이터의 시간적 및 공간적 의존성을 모두 포착할 수 있음을 보여줍니다. 광범위한 실험을 통해 우리의 방법이 노이즈 제거 과정에서의 계산 오버헤드를 크게 줄이면서도(즉, SVD와 비교하여 약 23배, 기존 연구와 비교하여 6배의 속도 향상과 더 나은 생성 품질) 경쟁력 있는 비디오 생성 품질을 달성함을 입증하였으며, 이를 통해 실시간 비디오 합성 및 편집의 길을 열었습니다. 더 많은 시각화 결과는 https://snap-research.github.io/SF-V에서 공개되어 있습니다.
English
Diffusion-based video generation models have demonstrated remarkable success
in obtaining high-fidelity videos through the iterative denoising process.
However, these models require multiple denoising steps during sampling,
resulting in high computational costs. In this work, we propose a novel
approach to obtain single-step video generation models by leveraging
adversarial training to fine-tune pre-trained video diffusion models. We show
that, through the adversarial training, the multi-steps video diffusion model,
i.e., Stable Video Diffusion (SVD), can be trained to perform single forward
pass to synthesize high-quality videos, capturing both temporal and spatial
dependencies in the video data. Extensive experiments demonstrate that our
method achieves competitive generation quality of synthesized videos with
significantly reduced computational overhead for the denoising process (i.e.,
around 23times speedup compared with SVD and 6times speedup compared with
existing works, with even better generation quality), paving the way for
real-time video synthesis and editing. More visualization results are made
publicly available at https://snap-research.github.io/SF-V.Summary
AI-Generated Summary