OSV: 고품질 이미지에서 비디오 생성에는 한 단계만으로 충분합니다.
OSV: One Step is Enough for High-Quality Image to Video Generation
September 17, 2024
저자: Xiaofeng Mao, Zhengkai Jiang, Fu-Yun Wang, Wenbing Zhu, Jiangning Zhang, Hao Chen, Mingmin Chi, Yabiao Wang
cs.AI
초록
비디오 확산 모델은 고품질 비디오를 생성하는 데 큰 잠재력을 보여주어, 점점 더 인기 있는 주제가 되고 있습니다. 그러나 그들의 본질적인 반복적인 특성은 상당한 계산 및 시간 비용을 초래합니다. 일관성 증류와 같은 기술을 통해 추론 단계를 줄이는 노력이 있었지만, 이러한 접근 방식은 종종 성능이나 훈련 안정성 중 하나에 부족함이 있습니다. 본 연구에서는 이러한 도전에 대처하기 위해 일관성 증류를 효과적으로 GAN 훈련과 결합하는 두 단계 훈련 프레임워크를 소개합니다. 더불어, 비디오 판별자 디자인을 제안하여 비디오 latents의 디코딩이 필요 없어지고 최종 성능이 향상됩니다. 우리 모델은 단 한 단계만으로 고품질 비디오를 생성할 수 있으며, 추가적인 성능 향상을 위해 다단계 세밀화를 수행할 유연성을 갖추고 있습니다. OpenWebVid-1M 벤치마크에서의 정량적 평가 결과, 우리 모델이 기존 방법들을 크게 능가함을 보여줍니다. 특히, 우리의 1단계 성능(FVD 171.15)은 일관성 증류 기반 방법인 AnimateLCM의 8단계 성능(FVD 184.79)을 능가하며, 고급 Stable Video Diffusion의 25단계 성능(FVD 156.94)에 근접합니다.
English
Video diffusion models have shown great potential in generating high-quality
videos, making them an increasingly popular focus. However, their inherent
iterative nature leads to substantial computational and time costs. While
efforts have been made to accelerate video diffusion by reducing inference
steps (through techniques like consistency distillation) and GAN training
(these approaches often fall short in either performance or training
stability). In this work, we introduce a two-stage training framework that
effectively combines consistency distillation with GAN training to address
these challenges. Additionally, we propose a novel video discriminator design,
which eliminates the need for decoding the video latents and improves the final
performance. Our model is capable of producing high-quality videos in merely
one-step, with the flexibility to perform multi-step refinement for further
performance enhancement. Our quantitative evaluation on the OpenWebVid-1M
benchmark shows that our model significantly outperforms existing methods.
Notably, our 1-step performance(FVD 171.15) exceeds the 8-step performance of
the consistency distillation based method, AnimateLCM (FVD 184.79), and
approaches the 25-step performance of advanced Stable Video Diffusion (FVD
156.94).Summary
AI-Generated Summary