VideoFactory: Austausch von Aufmerksamkeit in spatiotemporalen Diffusionen für die Text-zu-Video-Generierung
VideoFactory: Swap Attention in Spatiotemporal Diffusions for Text-to-Video Generation
May 18, 2023
Autoren: Wenjing Wang, Huan Yang, Zixi Tuo, Huiguo He, Junchen Zhu, Jianlong Fu, Jiaying Liu
cs.AI
Zusammenfassung
Wir präsentieren VideoFactory, ein innovatives Framework zur Erzeugung hochwertiger, offen-domain Videos. VideoFactory zeichnet sich durch die Produktion von hochauflösenden (1376x768), breitbildformatigen (16:9) Videos ohne Wasserzeichen aus, was ein ansprechendes Nutzererlebnis schafft. Die Erzeugung von Videos, die durch Textanweisungen gesteuert werden, stellt erhebliche Herausforderungen dar, wie die Modellierung der komplexen Beziehung zwischen Raum und Zeit sowie der Mangel an groß angelegten Text-Video-Paaren. Bisherige Ansätze erweitern vortrainierte Text-zu-Bild-Generierungsmodelle durch die Hinzufügung von temporalen 1D-Faltungs-/Aufmerksamkeitsmodulen für die Videogenerierung. Diese Ansätze vernachlässigen jedoch die Bedeutung der gemeinsamen Modellierung von Raum und Zeit, was unweigerlich zu zeitlichen Verzerrungen und Fehlausrichtungen zwischen Texten und Videos führt. In diesem Artikel schlagen wir einen neuartigen Ansatz vor, der die Interaktion zwischen räumlicher und zeitlicher Wahrnehmung stärkt. Insbesondere nutzen wir einen getauschten Cross-Attention-Mechanismus in 3D-Fenstern, der die „Query“-Rolle zwischen räumlichen und zeitlichen Blöcken abwechselt und so eine gegenseitige Verstärkung ermöglicht. Um die Modellfähigkeiten für die hochwertige Videogenerierung vollständig zu erschließen, haben wir einen groß angelegten Videodatensatz namens HD-VG-130M kuratiert. Dieser Datensatz umfasst 130 Millionen Text-Video-Paare aus der offenen Domain und gewährleistet hochauflösende, breitbildformatige und wasserzeichenfreie Eigenschaften. Objektive Metriken und Nutzerstudien demonstrieren die Überlegenheit unseres Ansatzes in Bezug auf die Qualität pro Frame, die zeitliche Korrelation und die Text-Video-Ausrichtung mit deutlichen Abständen.
English
We present VideoFactory, an innovative framework for generating high-quality
open-domain videos. VideoFactory excels in producing high-definition
(1376x768), widescreen (16:9) videos without watermarks, creating an engaging
user experience. Generating videos guided by text instructions poses
significant challenges, such as modeling the complex relationship between space
and time, and the lack of large-scale text-video paired data. Previous
approaches extend pretrained text-to-image generation models by adding temporal
1D convolution/attention modules for video generation. However, these
approaches overlook the importance of jointly modeling space and time,
inevitably leading to temporal distortions and misalignment between texts and
videos. In this paper, we propose a novel approach that strengthens the
interaction between spatial and temporal perceptions. In particular, we utilize
a swapped cross-attention mechanism in 3D windows that alternates the "query"
role between spatial and temporal blocks, enabling mutual reinforcement for
each other. To fully unlock model capabilities for high-quality video
generation, we curate a large-scale video dataset called HD-VG-130M. This
dataset comprises 130 million text-video pairs from the open-domain, ensuring
high-definition, widescreen and watermark-free characters. Objective metrics
and user studies demonstrate the superiority of our approach in terms of
per-frame quality, temporal correlation, and text-video alignment, with clear
margins.