OSV: 高品質な画像から動画を生成するには1ステップが十分
OSV: One Step is Enough for High-Quality Image to Video Generation
September 17, 2024
著者: Xiaofeng Mao, Zhengkai Jiang, Fu-Yun Wang, Wenbing Zhu, Jiangning Zhang, Hao Chen, Mingmin Chi, Yabiao Wang
cs.AI
要旨
ビデオ拡散モデルは、高品質なビデオを生成する潜在能力を示し、ますます人気のある焦点となっています。ただし、その本質的な反復的性質により、膨大な計算コストと時間コストが発生します。ビデオ拡散を加速するための取り組みがなされてきましたが、推論ステップの削減(一貫性蒸留などの手法を用いる)やGANのトレーニングによるアプローチは、性能またはトレーニングの安定性のどちらかに不足があります。本研究では、これらの課題に対処するために、一貫性蒸留をGANトレーニングと効果的に組み合わせる2段階トレーニングフレームワークを導入します。さらに、ビデオディスクリミネータの新しい設計を提案し、ビデオの潜在変数のデコードを不要とし、最終パフォーマンスを向上させます。当モデルは、わずか1ステップで高品質なビデオを生成する能力を持ち、さらなるパフォーマンス向上のためのマルチステップのリファインを実行する柔軟性を備えています。OpenWebVid-1Mベンチマークでの定量評価によると、当モデルは既存の手法を大幅に上回っています。特に、当モデルの1ステップパフォーマンス(FVD 171.15)は、一貫性蒸留ベースの手法であるAnimateLCM(FVD 184.79)の8ステップパフォーマンスを上回り、高度なStable Video Diffusion(FVD 156.94)の25ステップパフォーマンスに近づいています。
English
Video diffusion models have shown great potential in generating high-quality
videos, making them an increasingly popular focus. However, their inherent
iterative nature leads to substantial computational and time costs. While
efforts have been made to accelerate video diffusion by reducing inference
steps (through techniques like consistency distillation) and GAN training
(these approaches often fall short in either performance or training
stability). In this work, we introduce a two-stage training framework that
effectively combines consistency distillation with GAN training to address
these challenges. Additionally, we propose a novel video discriminator design,
which eliminates the need for decoding the video latents and improves the final
performance. Our model is capable of producing high-quality videos in merely
one-step, with the flexibility to perform multi-step refinement for further
performance enhancement. Our quantitative evaluation on the OpenWebVid-1M
benchmark shows that our model significantly outperforms existing methods.
Notably, our 1-step performance(FVD 171.15) exceeds the 8-step performance of
the consistency distillation based method, AnimateLCM (FVD 184.79), and
approaches the 25-step performance of advanced Stable Video Diffusion (FVD
156.94).Summary
AI-Generated Summary