フロー均等化としての合成的ビデオ生成
Compositional Video Generation as Flow Equalization
June 10, 2024
著者: Xingyi Yang, Xinchao Wang
cs.AI
要旨
大規模なテキストからビデオ(T2V)拡散モデルは、最近、自然言語の記述を驚くほどフォトリアルなビデオに変換する前例のない能力を示しています。有望な結果にもかかわらず、重要な課題が残っています。これらのモデルは、複数の概念とアクションの間の複雑な構成的な相互作用を完全に理解するのに苦労しています。この問題は、いくつかの単語が最終的なビデオに支配的な影響を与え、他の概念を覆い隠すときに発生します。この問題に対処するために、私たちはVicoを導入します。Vicoは、すべての概念が適切に表現されることを明示的に保証する、構成的なビデオ生成のための汎用フレームワークです。その核心において、Vicoは入力トークンが生成されたビデオにどのように影響するかを分析し、モデルを調整して、いかなる単一の概念も支配的にならないようにします。具体的には、Vicoはすべての層からアテンションの重みを抽出し、空間的・時間的アテンショングラフを構築し、ソーステキストトークンからビデオターゲットトークンへの最大フローとして影響を推定します。拡散モデルにおけるアテンションフローの直接計算は通常不可能ですが、サブグラフフローに基づく効率的な近似を考案し、高速でベクトル化された実装を採用することで、フロー計算を管理可能で微分可能にします。ノイジーな潜在変数を更新してこれらのフローをバランスさせることで、Vicoは複雑な相互作用を捉え、結果としてテキスト記述に密接に従うビデオを生成します。私たちの方法を、構成的なT2Vとビデオ編集のための複数の拡散ベースのビデオモデルに適用します。実験結果は、私たちのフレームワークが生成されたビデオの構成の豊かさと精度を大幅に向上させることを示しています。私たちのウェブサイトhttps://adamdad.github.io/vico/をご覧ください。
English
Large-scale Text-to-Video (T2V) diffusion models have recently demonstrated
unprecedented capability to transform natural language descriptions into
stunning and photorealistic videos. Despite the promising results, a
significant challenge remains: these models struggle to fully grasp complex
compositional interactions between multiple concepts and actions. This issue
arises when some words dominantly influence the final video, overshadowing
other concepts.To tackle this problem, we introduce Vico, a generic
framework for compositional video generation that explicitly ensures all
concepts are represented properly. At its core, Vico analyzes how input tokens
influence the generated video, and adjusts the model to prevent any single
concept from dominating. Specifically, Vico extracts attention weights from all
layers to build a spatial-temporal attention graph, and then estimates the
influence as the max-flow from the source text token to the video target
token. Although the direct computation of attention flow in diffusion models is
typically infeasible, we devise an efficient approximation based on subgraph
flows and employ a fast and vectorized implementation, which in turn makes the
flow computation manageable and differentiable. By updating the noisy latent to
balance these flows, Vico captures complex interactions and consequently
produces videos that closely adhere to textual descriptions. We apply our
method to multiple diffusion-based video models for compositional T2V and video
editing. Empirical results demonstrate that our framework significantly
enhances the compositional richness and accuracy of the generated videos. Visit
our website
at~https://adamdad.github.io/vico/{https://adamdad.github.io/vico/}.Summary
AI-Generated Summary