VideoFactory : Échange d'attention dans les diffusions spatiotemporelles pour la génération de vidéos à partir de texte
VideoFactory: Swap Attention in Spatiotemporal Diffusions for Text-to-Video Generation
May 18, 2023
Auteurs: Wenjing Wang, Huan Yang, Zixi Tuo, Huiguo He, Junchen Zhu, Jianlong Fu, Jiaying Liu
cs.AI
Résumé
Nous présentons VideoFactory, un cadre innovant pour la génération de vidéos de haute qualité dans des domaines ouverts. VideoFactory excelle dans la production de vidéos haute définition (1376x768) au format large (16:9) sans filigrane, offrant ainsi une expérience utilisateur immersive. La génération de vidéos guidée par des instructions textuelles pose des défis majeurs, tels que la modélisation de la relation complexe entre l'espace et le temps, ainsi que le manque de données à grande échelle associant texte et vidéo. Les approches précédentes étendent des modèles pré-entraînés de génération d'images à partir de texte en ajoutant des modules de convolution/attention temporelle 1D pour la génération de vidéos. Cependant, ces approches négligent l'importance d'une modélisation conjointe de l'espace et du temps, entraînant inévitablement des distorsions temporelles et des désalignements entre les textes et les vidéos. Dans cet article, nous proposons une nouvelle approche qui renforce l'interaction entre les perceptions spatiales et temporelles. En particulier, nous utilisons un mécanisme d'attention croisée alternée dans des fenêtres 3D qui alterne le rôle de "requête" entre les blocs spatiaux et temporels, permettant ainsi un renforcement mutuel. Pour libérer pleinement les capacités du modèle en matière de génération de vidéos de haute qualité, nous avons constitué un vaste ensemble de données vidéo appelé HD-VG-130M. Ce dataset comprend 130 millions de paires texte-vidéo provenant de domaines ouverts, garantissant des caractéristiques haute définition, au format large et sans filigrane. Les métriques objectives et les études utilisateurs démontrent la supériorité de notre approche en termes de qualité par image, de corrélation temporelle et d'alignement texte-vidéo, avec des marges significatives.
English
We present VideoFactory, an innovative framework for generating high-quality
open-domain videos. VideoFactory excels in producing high-definition
(1376x768), widescreen (16:9) videos without watermarks, creating an engaging
user experience. Generating videos guided by text instructions poses
significant challenges, such as modeling the complex relationship between space
and time, and the lack of large-scale text-video paired data. Previous
approaches extend pretrained text-to-image generation models by adding temporal
1D convolution/attention modules for video generation. However, these
approaches overlook the importance of jointly modeling space and time,
inevitably leading to temporal distortions and misalignment between texts and
videos. In this paper, we propose a novel approach that strengthens the
interaction between spatial and temporal perceptions. In particular, we utilize
a swapped cross-attention mechanism in 3D windows that alternates the "query"
role between spatial and temporal blocks, enabling mutual reinforcement for
each other. To fully unlock model capabilities for high-quality video
generation, we curate a large-scale video dataset called HD-VG-130M. This
dataset comprises 130 million text-video pairs from the open-domain, ensuring
high-definition, widescreen and watermark-free characters. Objective metrics
and user studies demonstrate the superiority of our approach in terms of
per-frame quality, temporal correlation, and text-video alignment, with clear
margins.