VideoFactory: テキストから動画生成のための時空間拡散におけるアテンション交換
VideoFactory: Swap Attention in Spatiotemporal Diffusions for Text-to-Video Generation
May 18, 2023
著者: Wenjing Wang, Huan Yang, Zixi Tuo, Huiguo He, Junchen Zhu, Jianlong Fu, Jiaying Liu
cs.AI
要旨
本論文では、高品質なオープンドメイン動画を生成する革新的なフレームワークであるVideoFactoryを紹介します。VideoFactoryは、透かしのない高解像度(1376x768)、ワイドスクリーン(16:9)の動画を生成する能力に優れており、ユーザーにとって魅力的な体験を提供します。テキスト指示に基づいて動画を生成することは、空間と時間の複雑な関係をモデル化することや、大規模なテキスト-動画ペアデータの不足など、重要な課題を抱えています。従来のアプローチでは、事前学習済みのテキストから画像を生成するモデルを拡張し、時間的な1次元畳み込み/アテンションモジュールを追加して動画生成を行っていました。しかし、これらのアプローチは空間と時間を共同でモデル化することの重要性を見落としており、必然的に時間的な歪みやテキストと動画の不一致を引き起こしていました。本論文では、空間的知覚と時間的知覚の相互作用を強化する新しいアプローチを提案します。特に、3Dウィンドウ内で「クエリ」の役割を空間ブロックと時間ブロックの間で交互に切り替えるスワップド・クロスアテンションメカニズムを活用し、互いに強化し合うことを可能にします。高品質な動画生成のためのモデル能力を最大限に引き出すために、HD-VG-130Mと呼ばれる大規模な動画データセットをキュレーションしました。このデータセットは、オープンドメインから収集された1億3000万のテキスト-動画ペアで構成され、高解像度、ワイドスクリーン、透かしのない特性を保証します。客観的指標とユーザー調査により、本アプローチがフレームごとの品質、時間的相関、テキスト-動画の整合性において明確な差をつけて優れていることが示されています。
English
We present VideoFactory, an innovative framework for generating high-quality
open-domain videos. VideoFactory excels in producing high-definition
(1376x768), widescreen (16:9) videos without watermarks, creating an engaging
user experience. Generating videos guided by text instructions poses
significant challenges, such as modeling the complex relationship between space
and time, and the lack of large-scale text-video paired data. Previous
approaches extend pretrained text-to-image generation models by adding temporal
1D convolution/attention modules for video generation. However, these
approaches overlook the importance of jointly modeling space and time,
inevitably leading to temporal distortions and misalignment between texts and
videos. In this paper, we propose a novel approach that strengthens the
interaction between spatial and temporal perceptions. In particular, we utilize
a swapped cross-attention mechanism in 3D windows that alternates the "query"
role between spatial and temporal blocks, enabling mutual reinforcement for
each other. To fully unlock model capabilities for high-quality video
generation, we curate a large-scale video dataset called HD-VG-130M. This
dataset comprises 130 million text-video pairs from the open-domain, ensuring
high-definition, widescreen and watermark-free characters. Objective metrics
and user studies demonstrate the superiority of our approach in terms of
per-frame quality, temporal correlation, and text-video alignment, with clear
margins.