LAVIE: カスケード型潜在拡散モデルによる高品質ビデオ生成
LAVIE: High-Quality Video Generation with Cascaded Latent Diffusion Models
September 26, 2023
著者: Yaohui Wang, Xinyuan Chen, Xin Ma, Shangchen Zhou, Ziqi Huang, Yi Wang, Ceyuan Yang, Yinan He, Jiashuo Yu, Peiqing Yang, Yuwei Guo, Tianxing Wu, Chenyang Si, Yuming Jiang, Cunjian Chen, Chen Change Loy, Bo Dai, Dahua Lin, Yu Qiao, Ziwei Liu
cs.AI
要旨
本研究は、事前学習済みのテキストから画像を生成するモデル(T2I)を基盤として、高品質なテキストから動画を生成するモデル(T2V)を学習することを目的としています。これは、a)視覚的にリアルで時間的に一貫した動画の合成を実現しつつ、b)事前学習済みT2Iモデルの強力な創造的生成能力を維持するという、非常に望ましいながらも困難な課題です。この目的のために、我々はLaVieを提案します。これは、ベースとなるT2Vモデル、時間補間モデル、動画超解像モデルから構成される、カスケード型の動画潜在拡散モデル上で動作する統合型動画生成フレームワークです。我々の重要な洞察は2つあります:1)単純な時間的自己注意機構と回転位置エンコーディングを組み込むことで、動画データに内在する時間的相関を適切に捉えられることを明らかにしました。2)さらに、画像と動画の共同ファインチューニングプロセスが、高品質で創造的な結果を生み出す上で重要な役割を果たすことを検証しました。LaVieの性能を向上させるため、我々はVimeo25Mという包括的で多様な動画データセットを提供します。これは、品質、多様性、美的魅力を重視した2500万のテキスト-動画ペアで構成されています。大規模な実験により、LaVieが定量的・定性的に最先端の性能を達成することが実証されました。さらに、事前学習済みLaVieモデルの多様性を、長尺動画生成やパーソナライズド動画合成など様々な応用で示しています。
English
This work aims to learn a high-quality text-to-video (T2V) generative model
by leveraging a pre-trained text-to-image (T2I) model as a basis. It is a
highly desirable yet challenging task to simultaneously a) accomplish the
synthesis of visually realistic and temporally coherent videos while b)
preserving the strong creative generation nature of the pre-trained T2I model.
To this end, we propose LaVie, an integrated video generation framework that
operates on cascaded video latent diffusion models, comprising a base T2V
model, a temporal interpolation model, and a video super-resolution model. Our
key insights are two-fold: 1) We reveal that the incorporation of simple
temporal self-attentions, coupled with rotary positional encoding, adequately
captures the temporal correlations inherent in video data. 2) Additionally, we
validate that the process of joint image-video fine-tuning plays a pivotal role
in producing high-quality and creative outcomes. To enhance the performance of
LaVie, we contribute a comprehensive and diverse video dataset named Vimeo25M,
consisting of 25 million text-video pairs that prioritize quality, diversity,
and aesthetic appeal. Extensive experiments demonstrate that LaVie achieves
state-of-the-art performance both quantitatively and qualitatively.
Furthermore, we showcase the versatility of pre-trained LaVie models in various
long video generation and personalized video synthesis applications.