VideoTetris: Verso una Generazione Composizionale di Video da Testo
VideoTetris: Towards Compositional Text-to-Video Generation
June 6, 2024
Autori: Ye Tian, Ling Yang, Haotian Yang, Yuan Gao, Yufan Deng, Jingmin Chen, Xintao Wang, Zhaochen Yu, Xin Tao, Pengfei Wan, Di Zhang, Bin Cui
cs.AI
Abstract
I modelli di diffusione hanno dimostrato un grande successo nella generazione di testo-video (T2V). Tuttavia, i metodi esistenti possono incontrare difficoltà nella gestione di scenari complessi di generazione video (lunghi) che coinvolgono più oggetti o cambiamenti dinamici nel numero di oggetti. Per affrontare queste limitazioni, proponiamo VideoTetris, un nuovo framework che abilita la generazione composizionale T2V. Nello specifico, proponiamo una diffusione composizionale spazio-temporale per seguire con precisione la semantica testuale complessa manipolando e componendo le mappe di attenzione delle reti di denoising sia spazialmente che temporalmente. Inoltre, proponiamo un preprocessamento avanzato dei dati video per migliorare i dati di addestramento riguardo alla dinamica del movimento e alla comprensione del prompt, dotato di un nuovo meccanismo di attenzione ai frame di riferimento per migliorare la coerenza della generazione video auto-regressiva. Esperimenti estensivi dimostrano che il nostro VideoTetris raggiunge risultati qualitativi e quantitativi impressionanti nella generazione composizionale T2V. Il codice è disponibile all'indirizzo: https://github.com/YangLing0818/VideoTetris
English
Diffusion models have demonstrated great success in text-to-video (T2V)
generation. However, existing methods may face challenges when handling complex
(long) video generation scenarios that involve multiple objects or dynamic
changes in object numbers. To address these limitations, we propose
VideoTetris, a novel framework that enables compositional T2V generation.
Specifically, we propose spatio-temporal compositional diffusion to precisely
follow complex textual semantics by manipulating and composing the attention
maps of denoising networks spatially and temporally. Moreover, we propose an
enhanced video data preprocessing to enhance the training data regarding motion
dynamics and prompt understanding, equipped with a new reference frame
attention mechanism to improve the consistency of auto-regressive video
generation. Extensive experiments demonstrate that our VideoTetris achieves
impressive qualitative and quantitative results in compositional T2V
generation. Code is available at: https://github.com/YangLing0818/VideoTetris