ChatPaper.aiChatPaper

VideoTetris: Op weg naar compositionele tekst-naar-video-generatie

VideoTetris: Towards Compositional Text-to-Video Generation

June 6, 2024
Auteurs: Ye Tian, Ling Yang, Haotian Yang, Yuan Gao, Yufan Deng, Jingmin Chen, Xintao Wang, Zhaochen Yu, Xin Tao, Pengfei Wan, Di Zhang, Bin Cui
cs.AI

Samenvatting

Diffusiemodellen hebben grote successen geboekt bij tekst-naar-video (T2V)-generatie. Bestaande methoden kunnen echter uitdagingen ondervinden bij het omgaan met complexe (lange) video-generatiescenario's die meerdere objecten of dynamische veranderingen in het aantal objecten omvatten. Om deze beperkingen aan te pakken, stellen we VideoTetris voor, een nieuw framework dat compositorische T2V-generatie mogelijk maakt. Specifiek stellen we spatio-temporele compositorische diffusie voor om complexe tekstuele semantiek nauwkeurig te volgen door de aandachtkaarten van denoiserende netwerken ruimtelijk en temporeel te manipuleren en samen te stellen. Bovendien stellen we een verbeterde videodatavoorbewerking voor om de trainingsdata te versterken wat betreft bewegingsdynamiek en promptbegrip, uitgerust met een nieuw referentiekader-aandachtsmechanisme om de consistentie van autoregressieve videogeneratie te verbeteren. Uitgebreide experimenten tonen aan dat onze VideoTetris indrukwekkende kwalitatieve en kwantitatieve resultaten behaalt bij compositorische T2V-generatie. Code is beschikbaar op: https://github.com/YangLing0818/VideoTetris
English
Diffusion models have demonstrated great success in text-to-video (T2V) generation. However, existing methods may face challenges when handling complex (long) video generation scenarios that involve multiple objects or dynamic changes in object numbers. To address these limitations, we propose VideoTetris, a novel framework that enables compositional T2V generation. Specifically, we propose spatio-temporal compositional diffusion to precisely follow complex textual semantics by manipulating and composing the attention maps of denoising networks spatially and temporally. Moreover, we propose an enhanced video data preprocessing to enhance the training data regarding motion dynamics and prompt understanding, equipped with a new reference frame attention mechanism to improve the consistency of auto-regressive video generation. Extensive experiments demonstrate that our VideoTetris achieves impressive qualitative and quantitative results in compositional T2V generation. Code is available at: https://github.com/YangLing0818/VideoTetris
PDF251February 7, 2026