ChatPaper.aiChatPaper

VideoTetris: Auf dem Weg zur kompositorischen Text-zu-Video-Generierung

VideoTetris: Towards Compositional Text-to-Video Generation

June 6, 2024
Autoren: Ye Tian, Ling Yang, Haotian Yang, Yuan Gao, Yufan Deng, Jingmin Chen, Xintao Wang, Zhaochen Yu, Xin Tao, Pengfei Wan, Di Zhang, Bin Cui
cs.AI

Zusammenfassung

Diffusionsmodelle haben große Erfolge bei der Text-zu-Video (T2V)-Generierung gezeigt. Allerdings könnten bestehende Methoden auf Herausforderungen stoßen, wenn es um komplexe (lange) Szenarien der Videoerzeugung geht, die mehrere Objekte oder dynamische Änderungen in der Anzahl der Objekte beinhalten. Um diese Einschränkungen zu überwinden, schlagen wir VideoTetris vor, ein neuartiges Framework, das eine kompositorische T2V-Generierung ermöglicht. Konkret schlagen wir eine räumlich-zeitliche kompositorische Diffusion vor, um komplexe textuelle Semantik präzise zu verfolgen, indem wir die Aufmerksamkeitskarten von Rauschunterdrückungsnetzwerken räumlich und zeitlich manipulieren und zusammensetzen. Darüber hinaus schlagen wir eine verbesserte Vorverarbeitung von Videodaten vor, um die Trainingsdaten hinsichtlich Bewegungsdynamik und schnellem Verständnis zu verbessern, ausgestattet mit einem neuen Referenzrahmen-Aufmerksamkeitsmechanismus zur Verbesserung der Konsistenz der autoregressiven Videoerzeugung. Umfangreiche Experimente zeigen, dass unser VideoTetris beeindruckende qualitative und quantitative Ergebnisse in der kompositorischen T2V-Generierung erzielt. Der Code ist verfügbar unter: https://github.com/YangLing0818/VideoTetris
English
Diffusion models have demonstrated great success in text-to-video (T2V) generation. However, existing methods may face challenges when handling complex (long) video generation scenarios that involve multiple objects or dynamic changes in object numbers. To address these limitations, we propose VideoTetris, a novel framework that enables compositional T2V generation. Specifically, we propose spatio-temporal compositional diffusion to precisely follow complex textual semantics by manipulating and composing the attention maps of denoising networks spatially and temporally. Moreover, we propose an enhanced video data preprocessing to enhance the training data regarding motion dynamics and prompt understanding, equipped with a new reference frame attention mechanism to improve the consistency of auto-regressive video generation. Extensive experiments demonstrate that our VideoTetris achieves impressive qualitative and quantitative results in compositional T2V generation. Code is available at: https://github.com/YangLing0818/VideoTetris

Summary

AI-Generated Summary

PDF261December 8, 2024