SF-V:シングルフォワード動画生成モデル
SF-V: Single Forward Video Generation Model
June 6, 2024
著者: Zhixing Zhang, Yanyu Li, Yushu Wu, Yanwu Xu, Anil Kag, Ivan Skorokhodov, Willi Menapace, Aliaksandr Siarohin, Junli Cao, Dimitris Metaxas, Sergey Tulyakov, Jian Ren
cs.AI
要旨
拡散ベースのビデオ生成モデルは、反復的なノイズ除去プロセスを通じて高忠実度のビデオを生成する際に顕著な成功を収めてきました。しかし、これらのモデルはサンプリング時に複数のノイズ除去ステップを必要とするため、高い計算コストがかかります。本研究では、事前学習済みのビデオ拡散モデルを敵対的学習を用いて微調整し、単一ステップでビデオを生成する新しいアプローチを提案します。我々は、敵対的学習を通じて、多段階のビデオ拡散モデル(Stable Video Diffusion, SVD)を単一のフォワードパスで高品質なビデオを合成するように訓練できることを示します。これにより、ビデオデータの時間的および空間的依存性を捉えることが可能となります。大規模な実験により、我々の手法がノイズ除去プロセスの計算オーバーヘッドを大幅に削減しつつ(SVDと比較して約23倍、既存研究と比較して6倍の高速化を実現)、生成品質においても優れた結果を得ることが示されました。これにより、リアルタイムのビデオ合成と編集への道が開かれます。さらなる可視化結果はhttps://snap-research.github.io/SF-Vで公開されています。
English
Diffusion-based video generation models have demonstrated remarkable success
in obtaining high-fidelity videos through the iterative denoising process.
However, these models require multiple denoising steps during sampling,
resulting in high computational costs. In this work, we propose a novel
approach to obtain single-step video generation models by leveraging
adversarial training to fine-tune pre-trained video diffusion models. We show
that, through the adversarial training, the multi-steps video diffusion model,
i.e., Stable Video Diffusion (SVD), can be trained to perform single forward
pass to synthesize high-quality videos, capturing both temporal and spatial
dependencies in the video data. Extensive experiments demonstrate that our
method achieves competitive generation quality of synthesized videos with
significantly reduced computational overhead for the denoising process (i.e.,
around 23times speedup compared with SVD and 6times speedup compared with
existing works, with even better generation quality), paving the way for
real-time video synthesis and editing. More visualization results are made
publicly available at https://snap-research.github.io/SF-V.Summary
AI-Generated Summary