ChatPaper.aiChatPaper

再利用と拡散:テキストからビデオ生成のための反復的ノイズ除去

Reuse and Diffuse: Iterative Denoising for Text-to-Video Generation

September 7, 2023
著者: Jiaxi Gu, Shicong Wang, Haoyu Zhao, Tianyi Lu, Xing Zhang, Zuxuan Wu, Songcen Xu, Wei Zhang, Yu-Gang Jiang, Hang Xu
cs.AI

要旨

画像合成におけるLatent Diffusion Models(LDMs)の顕著な成功に触発され、本論文ではテキストからビデオ生成へのLDMの応用を研究します。これは、モデルの学習と推論の両方において計算資源とメモリの制約が大きいため、非常に困難な課題です。単一のLDMでは通常、ごく限られた数のビデオフレームしか生成できません。既存の研究では、より多くのビデオフレームを生成するために別々の予測モデルに焦点を当てていますが、これには追加の学習コストやフレームレベルのジッタが伴います。本論文では、LDMによって既に生成されたフレームに続いて、より多くのフレームを生成するための「Reuse and Diffuse」というフレームワーク、VidRDを提案します。少数のフレームを含む初期ビデオクリップを条件として、元の潜在特徴を再利用し、前回の拡散プロセスに従って追加のフレームを反復的に生成します。さらに、ピクセル空間と潜在空間の間の変換に使用されるオートエンコーダに対して、デコーダに時間層を注入し、これらの層を微調整して時間的な一貫性を高めます。また、アクション認識のためのビデオデータセットや画像-テキストデータセットなど、複数の既存データセットから多様なコンテンツを含むビデオ-テキストデータを構成するための一連の戦略を提案します。大規模な実験により、本手法が定量的および定性的な評価の両方で良好な結果を達成することが示されています。プロジェクトページはhttps://anonymous0x233.github.io/ReuseAndDiffuse/で公開されています。
English
Inspired by the remarkable success of Latent Diffusion Models (LDMs) for image synthesis, we study LDM for text-to-video generation, which is a formidable challenge due to the computational and memory constraints during both model training and inference. A single LDM is usually only capable of generating a very limited number of video frames. Some existing works focus on separate prediction models for generating more video frames, which suffer from additional training cost and frame-level jittering, however. In this paper, we propose a framework called "Reuse and Diffuse" dubbed VidRD to produce more frames following the frames already generated by an LDM. Conditioned on an initial video clip with a small number of frames, additional frames are iteratively generated by reusing the original latent features and following the previous diffusion process. Besides, for the autoencoder used for translation between pixel space and latent space, we inject temporal layers into its decoder and fine-tune these layers for higher temporal consistency. We also propose a set of strategies for composing video-text data that involve diverse content from multiple existing datasets including video datasets for action recognition and image-text datasets. Extensive experiments show that our method achieves good results in both quantitative and qualitative evaluations. Our project page is available https://anonymous0x233.github.io/ReuseAndDiffuse/{here}.
PDF60December 15, 2024