VideoFactory : Échange d'attention dans les diffusions spatiotemporelles pour la génération de vidéos à partir de texte

Résumé

Nous présentons VideoFactory, un cadre innovant pour la génération de vidéos de haute qualité dans des domaines ouverts. VideoFactory excelle dans la production de vidéos haute définition (1376x768) au format large (16:9) sans filigrane, offrant ainsi une expérience utilisateur immersive. La génération de vidéos guidée par des instructions textuelles pose des défis majeurs, tels que la modélisation de la relation complexe entre l'espace et le temps, ainsi que le manque de données à grande échelle associant texte et vidéo. Les approches précédentes étendent des modèles pré-entraînés de génération d'images à partir de texte en ajoutant des modules de convolution/attention temporelle 1D pour la génération de vidéos. Cependant, ces approches négligent l'importance d'une modélisation conjointe de l'espace et du temps, entraînant inévitablement des distorsions temporelles et des désalignements entre les textes et les vidéos. Dans cet article, nous proposons une nouvelle approche qui renforce l'interaction entre les perceptions spatiales et temporelles. En particulier, nous utilisons un mécanisme d'attention croisée alternée dans des fenêtres 3D qui alterne le rôle de "requête" entre les blocs spatiaux et temporels, permettant ainsi un renforcement mutuel. Pour libérer pleinement les capacités du modèle en matière de génération de vidéos de haute qualité, nous avons constitué un vaste ensemble de données vidéo appelé HD-VG-130M. Ce dataset comprend 130 millions de paires texte-vidéo provenant de domaines ouverts, garantissant des caractéristiques haute définition, au format large et sans filigrane. Les métriques objectives et les études utilisateurs démontrent la supériorité de notre approche en termes de qualité par image, de corrélation temporelle et d'alignement texte-vidéo, avec des marges significatives.

English

We present VideoFactory, an innovative framework for generating high-quality open-domain videos. VideoFactory excels in producing high-definition (1376x768), widescreen (16:9) videos without watermarks, creating an engaging user experience. Generating videos guided by text instructions poses significant challenges, such as modeling the complex relationship between space and time, and the lack of large-scale text-video paired data. Previous approaches extend pretrained text-to-image generation models by adding temporal 1D convolution/attention modules for video generation. However, these approaches overlook the importance of jointly modeling space and time, inevitably leading to temporal distortions and misalignment between texts and videos. In this paper, we propose a novel approach that strengthens the interaction between spatial and temporal perceptions. In particular, we utilize a swapped cross-attention mechanism in 3D windows that alternates the "query" role between spatial and temporal blocks, enabling mutual reinforcement for each other. To fully unlock model capabilities for high-quality video generation, we curate a large-scale video dataset called HD-VG-130M. This dataset comprises 130 million text-video pairs from the open-domain, ensuring high-definition, widescreen and watermark-free characters. Objective metrics and user studies demonstrate the superiority of our approach in terms of per-frame quality, temporal correlation, and text-video alignment, with clear margins.

VideoFactory : Échange d'attention dans les diffusions spatiotemporelles pour la génération de vidéos à partir de texte

VideoFactory: Swap Attention in Spatiotemporal Diffusions for Text-to-Video Generation

Résumé

Support