ChatPaper.aiChatPaper

Factorized-Dreamer: 限定的かつ低品質なデータを用いた高品質ビデオ生成器のトレーニング

Factorized-Dreamer: Training A High-Quality Video Generator with Limited and Low-Quality Data

August 19, 2024
著者: Tao Yang, Yangming Shi, Yunwen Huang, Feng Chen, Yin Zheng, Lei Zhang
cs.AI

要旨

テキストからビデオ(T2V)生成は、ビデオ生成、編集、拡張、翻訳など、幅広い応用が可能であることから、大きな注目を集めています。しかし、高品質(HQ)なビデオ合成は、現実世界に存在する多様で複雑な動きのため、非常に困難です。既存の研究の多くは、コミュニティにとってアクセスが難しい大規模なHQビデオを収集することでこの問題に対処しようとしていますが、十分な成果を上げられていません。本研究では、再キャプションやファインチューニングを行わずに、公開されている限定的で低品質(LQ)なデータを用いてHQビデオ生成器を訓練できることを示します。我々は、T2V生成プロセス全体を2つのステップに分解します。まず、高度に記述的なキャプションに基づいて画像を生成し、次に生成された画像と動きの詳細を簡潔に記述したキャプションに基づいてビデオを合成します。具体的には、Factorized-Dreamerを提案します。これは、テキストと画像の埋め込みを結合するアダプター、ピクセルレベルの画像情報を捕捉するピクセル対応クロスアテンションモジュール、動きの記述をより良く理解するためのT5テキストエンコーダ、および光学的フローを監督するPredictNetを含む、T2V生成のための分解された時空間フレームワークです。さらに、ビデオ生成の品質と安定性を確保する上で重要な役割を果たすノイズスケジュールを提示します。我々のモデルは、詳細なキャプションやHQビデオの要件を低減し、WebVid-10Mのようなノイズの多い簡潔なキャプションを持つ限定的なLQデータセットで直接訓練することが可能であり、大規模なHQビデオとテキストのペアを収集するコストを大幅に軽減します。様々なT2Vおよび画像からビデオ生成タスクにおける広範な実験により、提案するFactorized-Dreamerの有効性が実証されました。ソースコードはhttps://github.com/yangxy/Factorized-Dreamer/で公開されています。
English
Text-to-video (T2V) generation has gained significant attention due to its wide applications to video generation, editing, enhancement and translation, \etc. However, high-quality (HQ) video synthesis is extremely challenging because of the diverse and complex motions existed in real world. Most existing works struggle to address this problem by collecting large-scale HQ videos, which are inaccessible to the community. In this work, we show that publicly available limited and low-quality (LQ) data are sufficient to train a HQ video generator without recaptioning or finetuning. We factorize the whole T2V generation process into two steps: generating an image conditioned on a highly descriptive caption, and synthesizing the video conditioned on the generated image and a concise caption of motion details. Specifically, we present Factorized-Dreamer, a factorized spatiotemporal framework with several critical designs for T2V generation, including an adapter to combine text and image embeddings, a pixel-aware cross attention module to capture pixel-level image information, a T5 text encoder to better understand motion description, and a PredictNet to supervise optical flows. We further present a noise schedule, which plays a key role in ensuring the quality and stability of video generation. Our model lowers the requirements in detailed captions and HQ videos, and can be directly trained on limited LQ datasets with noisy and brief captions such as WebVid-10M, largely alleviating the cost to collect large-scale HQ video-text pairs. Extensive experiments in a variety of T2V and image-to-video generation tasks demonstrate the effectiveness of our proposed Factorized-Dreamer. Our source codes are available at https://github.com/yangxy/Factorized-Dreamer/.

Summary

AI-Generated Summary

PDF173November 19, 2024