VideoTetris: Op weg naar compositionele tekst-naar-video-generatie
VideoTetris: Towards Compositional Text-to-Video Generation
June 6, 2024
Auteurs: Ye Tian, Ling Yang, Haotian Yang, Yuan Gao, Yufan Deng, Jingmin Chen, Xintao Wang, Zhaochen Yu, Xin Tao, Pengfei Wan, Di Zhang, Bin Cui
cs.AI
Samenvatting
Diffusiemodellen hebben grote successen geboekt bij tekst-naar-video (T2V)-generatie. Bestaande methoden kunnen echter uitdagingen ondervinden bij het omgaan met complexe (lange) video-generatiescenario's die meerdere objecten of dynamische veranderingen in het aantal objecten omvatten. Om deze beperkingen aan te pakken, stellen we VideoTetris voor, een nieuw framework dat compositorische T2V-generatie mogelijk maakt. Specifiek stellen we spatio-temporele compositorische diffusie voor om complexe tekstuele semantiek nauwkeurig te volgen door de aandachtkaarten van denoiserende netwerken ruimtelijk en temporeel te manipuleren en samen te stellen. Bovendien stellen we een verbeterde videodatavoorbewerking voor om de trainingsdata te versterken wat betreft bewegingsdynamiek en promptbegrip, uitgerust met een nieuw referentiekader-aandachtsmechanisme om de consistentie van autoregressieve videogeneratie te verbeteren. Uitgebreide experimenten tonen aan dat onze VideoTetris indrukwekkende kwalitatieve en kwantitatieve resultaten behaalt bij compositorische T2V-generatie. Code is beschikbaar op: https://github.com/YangLing0818/VideoTetris
English
Diffusion models have demonstrated great success in text-to-video (T2V)
generation. However, existing methods may face challenges when handling complex
(long) video generation scenarios that involve multiple objects or dynamic
changes in object numbers. To address these limitations, we propose
VideoTetris, a novel framework that enables compositional T2V generation.
Specifically, we propose spatio-temporal compositional diffusion to precisely
follow complex textual semantics by manipulating and composing the attention
maps of denoising networks spatially and temporally. Moreover, we propose an
enhanced video data preprocessing to enhance the training data regarding motion
dynamics and prompt understanding, equipped with a new reference frame
attention mechanism to improve the consistency of auto-regressive video
generation. Extensive experiments demonstrate that our VideoTetris achieves
impressive qualitative and quantitative results in compositional T2V
generation. Code is available at: https://github.com/YangLing0818/VideoTetris