BroadWay: Verbessern Sie Ihr Text-zu-Video-Generierungsmodell auf eine Training-freie Weise.
BroadWay: Boost Your Text-to-Video Generation Model in a Training-free Way
October 8, 2024
Autoren: Jiazi Bu, Pengyang Ling, Pan Zhang, Tong Wu, Xiaoyi Dong, Yuhang Zang, Yuhang Cao, Dahua Lin, Jiaqi Wang
cs.AI
Zusammenfassung
Die Text-zu-Video (T2V)-Generierungsmodelle, die eine bequeme visuelle Erstellung bieten, haben in letzter Zeit zunehmend Aufmerksamkeit erregt. Trotz ihres erheblichen Potenzials können die generierten Videos Artefakte aufweisen, darunter strukturelle Unplausibilität, zeitliche Inkonsistenz und ein Mangel an Bewegung, was häufig zu nahezu statischen Videos führt. In dieser Arbeit haben wir eine Korrelation zwischen der Diskrepanz der zeitlichen Aufmerksamkeitskarten in verschiedenen Blöcken und dem Auftreten von zeitlichen Inkonsistenzen identifiziert. Darüber hinaus haben wir beobachtet, dass die Energie innerhalb der zeitlichen Aufmerksamkeitskarten direkt mit der Größenordnung der Bewegungsamplitude in den generierten Videos zusammenhängt. Basierend auf diesen Beobachtungen präsentieren wir BroadWay, eine trainingsfreie Methode zur Verbesserung der Qualität der Text-zu-Video-Generierung, ohne zusätzliche Parameter einzuführen, den Speicher zu erweitern oder die Abtastzeit zu erhöhen. Konkret besteht BroadWay aus zwei Hauptkomponenten: 1) Die temporale Selbstführung verbessert die strukturelle Plausibilität und zeitliche Konsistenz der generierten Videos, indem die Diskrepanz zwischen den zeitlichen Aufmerksamkeitskarten in verschiedenen Decoder-Blöcken verringert wird. 2) Die Fourier-basierte Bewegungsverstärkung verbessert die Größenordnung und Fülle der Bewegung, indem die Energie der Karte verstärkt wird. Umfangreiche Experimente zeigen, dass BroadWay die Qualität der Text-zu-Video-Generierung signifikant verbessert, ohne nennenswerte zusätzliche Kosten zu verursachen.
English
The text-to-video (T2V) generation models, offering convenient visual
creation, have recently garnered increasing attention. Despite their
substantial potential, the generated videos may present artifacts, including
structural implausibility, temporal inconsistency, and a lack of motion, often
resulting in near-static video. In this work, we have identified a correlation
between the disparity of temporal attention maps across different blocks and
the occurrence of temporal inconsistencies. Additionally, we have observed that
the energy contained within the temporal attention maps is directly related to
the magnitude of motion amplitude in the generated videos. Based on these
observations, we present BroadWay, a training-free method to improve the
quality of text-to-video generation without introducing additional parameters,
augmenting memory or sampling time. Specifically, BroadWay is composed of two
principal components: 1) Temporal Self-Guidance improves the structural
plausibility and temporal consistency of generated videos by reducing the
disparity between the temporal attention maps across various decoder blocks. 2)
Fourier-based Motion Enhancement enhances the magnitude and richness of motion
by amplifying the energy of the map. Extensive experiments demonstrate that
BroadWay significantly improves the quality of text-to-video generation with
negligible additional cost.Summary
AI-Generated Summary