VideoGen: 高精細テキスト動画生成のための参照ガイド付き潜在拡散アプローチ
VideoGen: A Reference-Guided Latent Diffusion Approach for High Definition Text-to-Video Generation
September 1, 2023
著者: Xin Li, Wenqing Chu, Ye Wu, Weihang Yuan, Fanglong Liu, Qi Zhang, Fu Li, Haocheng Feng, Errui Ding, Jingdong Wang
cs.AI
要旨
本論文では、テキストからビデオを生成するアプローチであるVideoGenを提案します。この手法は、参照画像をガイドとした潜在拡散モデルを用いて、高解像度かつ高いフレーム忠実性と強い時間的一貫性を持つビデオを生成することができます。まず、Stable Diffusionなどの既存のテキストから画像を生成するモデルを活用し、テキストプロンプトから高品質なコンテンツを持つ画像を生成し、これをビデオ生成のための参照画像として使用します。次に、参照画像とテキストプロンプトの両方を条件とした効率的なカスケード潜在拡散モジュールを導入し、潜在ビデオ表現を生成します。その後、フローベースの時間的アップサンプリングステップを適用して時間解像度を向上させます。最後に、強化されたビデオデコーダを通じて潜在ビデオ表現を高解像度ビデオにマッピングします。訓練中は、正解ビデオの最初のフレームを参照画像として使用し、カスケード潜在拡散モジュールを訓練します。本手法の主な特徴は以下の通りです:テキストから画像を生成するモデルによって生成された参照画像が視覚的忠実性を向上させること、これを条件として使用することで拡散モデルがビデオのダイナミクスの学習に集中できること、そしてビデオデコーダがラベルなしビデオデータで訓練されるため、高品質で容易に入手可能なビデオから恩恵を受けることです。VideoGenは、質的および量的な評価の両面において、テキストからビデオ生成の新たな最先端を確立しました。
English
In this paper, we present VideoGen, a text-to-video generation approach,
which can generate a high-definition video with high frame fidelity and strong
temporal consistency using reference-guided latent diffusion. We leverage an
off-the-shelf text-to-image generation model, e.g., Stable Diffusion, to
generate an image with high content quality from the text prompt, as a
reference image to guide video generation. Then, we introduce an efficient
cascaded latent diffusion module conditioned on both the reference image and
the text prompt, for generating latent video representations, followed by a
flow-based temporal upsampling step to improve the temporal resolution.
Finally, we map latent video representations into a high-definition video
through an enhanced video decoder. During training, we use the first frame of a
ground-truth video as the reference image for training the cascaded latent
diffusion module. The main characterises of our approach include: the reference
image generated by the text-to-image model improves the visual fidelity; using
it as the condition makes the diffusion model focus more on learning the video
dynamics; and the video decoder is trained over unlabeled video data, thus
benefiting from high-quality easily-available videos. VideoGen sets a new
state-of-the-art in text-to-video generation in terms of both qualitative and
quantitative evaluation.