再利用と拡散:テキストからビデオ生成のための反復的ノイズ除去
Reuse and Diffuse: Iterative Denoising for Text-to-Video Generation
September 7, 2023
著者: Jiaxi Gu, Shicong Wang, Haoyu Zhao, Tianyi Lu, Xing Zhang, Zuxuan Wu, Songcen Xu, Wei Zhang, Yu-Gang Jiang, Hang Xu
cs.AI
要旨
画像合成におけるLatent Diffusion Models(LDMs)の顕著な成功に触発され、本論文ではテキストからビデオ生成へのLDMの応用を研究します。これは、モデルの学習と推論の両方において計算資源とメモリの制約が大きいため、非常に困難な課題です。単一のLDMでは通常、ごく限られた数のビデオフレームしか生成できません。既存の研究では、より多くのビデオフレームを生成するために別々の予測モデルに焦点を当てていますが、これには追加の学習コストやフレームレベルのジッタが伴います。本論文では、LDMによって既に生成されたフレームに続いて、より多くのフレームを生成するための「Reuse and Diffuse」というフレームワーク、VidRDを提案します。少数のフレームを含む初期ビデオクリップを条件として、元の潜在特徴を再利用し、前回の拡散プロセスに従って追加のフレームを反復的に生成します。さらに、ピクセル空間と潜在空間の間の変換に使用されるオートエンコーダに対して、デコーダに時間層を注入し、これらの層を微調整して時間的な一貫性を高めます。また、アクション認識のためのビデオデータセットや画像-テキストデータセットなど、複数の既存データセットから多様なコンテンツを含むビデオ-テキストデータを構成するための一連の戦略を提案します。大規模な実験により、本手法が定量的および定性的な評価の両方で良好な結果を達成することが示されています。プロジェクトページはhttps://anonymous0x233.github.io/ReuseAndDiffuse/で公開されています。
English
Inspired by the remarkable success of Latent Diffusion Models (LDMs) for
image synthesis, we study LDM for text-to-video generation, which is a
formidable challenge due to the computational and memory constraints during
both model training and inference. A single LDM is usually only capable of
generating a very limited number of video frames. Some existing works focus on
separate prediction models for generating more video frames, which suffer from
additional training cost and frame-level jittering, however. In this paper, we
propose a framework called "Reuse and Diffuse" dubbed VidRD to
produce more frames following the frames already generated by an LDM.
Conditioned on an initial video clip with a small number of frames, additional
frames are iteratively generated by reusing the original latent features and
following the previous diffusion process. Besides, for the autoencoder used for
translation between pixel space and latent space, we inject temporal layers
into its decoder and fine-tune these layers for higher temporal consistency. We
also propose a set of strategies for composing video-text data that involve
diverse content from multiple existing datasets including video datasets for
action recognition and image-text datasets. Extensive experiments show that our
method achieves good results in both quantitative and qualitative evaluations.
Our project page is available
https://anonymous0x233.github.io/ReuseAndDiffuse/{here}.