FancyVideo: クロスフレームテキストガイダンスによる動的で一貫性のあるビデオ生成に向けて
FancyVideo: Towards Dynamic and Consistent Video Generation via Cross-frame Textual Guidance
August 15, 2024
著者: Jiasong Feng, Ao Ma, Jing Wang, Bo Cheng, Xiaodan Liang, Dawei Leng, Yuhui Yin
cs.AI
要旨
モーションが豊かで時間的に一貫性のある動画の合成は、人工知能における課題であり、特に長時間の動画を扱う場合に顕著です。既存のテキストから動画を生成する(T2V)モデルでは、一般的に空間的なクロスアテンションをテキスト制御に使用しており、異なるフレームの生成を同等にガイドするため、フレーム固有のテキストガイダンスが欠如しています。その結果、モデルがプロンプトに含まれる時間的論理を理解し、一貫したモーションを持つ動画を生成する能力が制限されています。この制限を克服するため、我々はFancyVideoを提案します。これは、既存のテキスト制御メカニズムを改良した革新的な動画生成器であり、精巧に設計されたクロスフレームテキストガイダンスモジュール(CTGM)を採用しています。具体的には、CTGMは、クロスアテンションの開始、中間、終了時点でそれぞれ時間情報インジェクター(TII)、時間的親和性リファイナー(TAR)、時間的特徴ブースター(TFB)を組み込むことで、フレーム固有のテキストガイダンスを実現します。まず、TIIは潜在特徴からフレーム固有の情報をテキスト条件に注入し、クロスフレームテキスト条件を取得します。次に、TARはクロスフレームテキスト条件と潜在特徴間の相関行列を時間次元に沿って洗練します。最後に、TFBは潜在特徴の時間的一貫性を強化します。定量的および定性的な評価を含む広範な実験により、FancyVideoの有効性が実証されました。我々のアプローチは、EvalCrafterベンチマークにおいて最先端のT2V生成結果を達成し、ダイナミックで一貫性のある動画の合成を可能にします。動画の結果はhttps://fancyvideo.github.io/で確認でき、コードとモデルの重みを公開する予定です。
English
Synthesizing motion-rich and temporally consistent videos remains a challenge
in artificial intelligence, especially when dealing with extended durations.
Existing text-to-video (T2V) models commonly employ spatial cross-attention for
text control, equivalently guiding different frame generations without
frame-specific textual guidance. Thus, the model's capacity to comprehend the
temporal logic conveyed in prompts and generate videos with coherent motion is
restricted. To tackle this limitation, we introduce FancyVideo, an innovative
video generator that improves the existing text-control mechanism with the
well-designed Cross-frame Textual Guidance Module (CTGM). Specifically, CTGM
incorporates the Temporal Information Injector (TII), Temporal Affinity Refiner
(TAR), and Temporal Feature Booster (TFB) at the beginning, middle, and end of
cross-attention, respectively, to achieve frame-specific textual guidance.
Firstly, TII injects frame-specific information from latent features into text
conditions, thereby obtaining cross-frame textual conditions. Then, TAR refines
the correlation matrix between cross-frame textual conditions and latent
features along the time dimension. Lastly, TFB boosts the temporal consistency
of latent features. Extensive experiments comprising both quantitative and
qualitative evaluations demonstrate the effectiveness of FancyVideo. Our
approach achieves state-of-the-art T2V generation results on the EvalCrafter
benchmark and facilitates the synthesis of dynamic and consistent videos. The
video show results can be available at https://fancyvideo.github.io/, and we
will make our code and model weights publicly available.Summary
AI-Generated Summary