VideoTetris: Auf dem Weg zur kompositorischen Text-zu-Video-Generierung
VideoTetris: Towards Compositional Text-to-Video Generation
June 6, 2024
Autoren: Ye Tian, Ling Yang, Haotian Yang, Yuan Gao, Yufan Deng, Jingmin Chen, Xintao Wang, Zhaochen Yu, Xin Tao, Pengfei Wan, Di Zhang, Bin Cui
cs.AI
Zusammenfassung
Diffusionsmodelle haben große Erfolge bei der Text-zu-Video (T2V)-Generierung gezeigt. Allerdings könnten bestehende Methoden auf Herausforderungen stoßen, wenn es um komplexe (lange) Szenarien der Videoerzeugung geht, die mehrere Objekte oder dynamische Änderungen in der Anzahl der Objekte beinhalten. Um diese Einschränkungen zu überwinden, schlagen wir VideoTetris vor, ein neuartiges Framework, das eine kompositorische T2V-Generierung ermöglicht. Konkret schlagen wir eine räumlich-zeitliche kompositorische Diffusion vor, um komplexe textuelle Semantik präzise zu verfolgen, indem wir die Aufmerksamkeitskarten von Rauschunterdrückungsnetzwerken räumlich und zeitlich manipulieren und zusammensetzen. Darüber hinaus schlagen wir eine verbesserte Vorverarbeitung von Videodaten vor, um die Trainingsdaten hinsichtlich Bewegungsdynamik und schnellem Verständnis zu verbessern, ausgestattet mit einem neuen Referenzrahmen-Aufmerksamkeitsmechanismus zur Verbesserung der Konsistenz der autoregressiven Videoerzeugung. Umfangreiche Experimente zeigen, dass unser VideoTetris beeindruckende qualitative und quantitative Ergebnisse in der kompositorischen T2V-Generierung erzielt. Der Code ist verfügbar unter: https://github.com/YangLing0818/VideoTetris
English
Diffusion models have demonstrated great success in text-to-video (T2V)
generation. However, existing methods may face challenges when handling complex
(long) video generation scenarios that involve multiple objects or dynamic
changes in object numbers. To address these limitations, we propose
VideoTetris, a novel framework that enables compositional T2V generation.
Specifically, we propose spatio-temporal compositional diffusion to precisely
follow complex textual semantics by manipulating and composing the attention
maps of denoising networks spatially and temporally. Moreover, we propose an
enhanced video data preprocessing to enhance the training data regarding motion
dynamics and prompt understanding, equipped with a new reference frame
attention mechanism to improve the consistency of auto-regressive video
generation. Extensive experiments demonstrate that our VideoTetris achieves
impressive qualitative and quantitative results in compositional T2V
generation. Code is available at: https://github.com/YangLing0818/VideoTetrisSummary
AI-Generated Summary