ChatPaper.aiChatPaper

VideoTetris: Verso una Generazione Composizionale di Video da Testo

VideoTetris: Towards Compositional Text-to-Video Generation

June 6, 2024
Autori: Ye Tian, Ling Yang, Haotian Yang, Yuan Gao, Yufan Deng, Jingmin Chen, Xintao Wang, Zhaochen Yu, Xin Tao, Pengfei Wan, Di Zhang, Bin Cui
cs.AI

Abstract

I modelli di diffusione hanno dimostrato un grande successo nella generazione di testo-video (T2V). Tuttavia, i metodi esistenti possono incontrare difficoltà nella gestione di scenari complessi di generazione video (lunghi) che coinvolgono più oggetti o cambiamenti dinamici nel numero di oggetti. Per affrontare queste limitazioni, proponiamo VideoTetris, un nuovo framework che abilita la generazione composizionale T2V. Nello specifico, proponiamo una diffusione composizionale spazio-temporale per seguire con precisione la semantica testuale complessa manipolando e componendo le mappe di attenzione delle reti di denoising sia spazialmente che temporalmente. Inoltre, proponiamo un preprocessamento avanzato dei dati video per migliorare i dati di addestramento riguardo alla dinamica del movimento e alla comprensione del prompt, dotato di un nuovo meccanismo di attenzione ai frame di riferimento per migliorare la coerenza della generazione video auto-regressiva. Esperimenti estensivi dimostrano che il nostro VideoTetris raggiunge risultati qualitativi e quantitativi impressionanti nella generazione composizionale T2V. Il codice è disponibile all'indirizzo: https://github.com/YangLing0818/VideoTetris
English
Diffusion models have demonstrated great success in text-to-video (T2V) generation. However, existing methods may face challenges when handling complex (long) video generation scenarios that involve multiple objects or dynamic changes in object numbers. To address these limitations, we propose VideoTetris, a novel framework that enables compositional T2V generation. Specifically, we propose spatio-temporal compositional diffusion to precisely follow complex textual semantics by manipulating and composing the attention maps of denoising networks spatially and temporally. Moreover, we propose an enhanced video data preprocessing to enhance the training data regarding motion dynamics and prompt understanding, equipped with a new reference frame attention mechanism to improve the consistency of auto-regressive video generation. Extensive experiments demonstrate that our VideoTetris achieves impressive qualitative and quantitative results in compositional T2V generation. Code is available at: https://github.com/YangLing0818/VideoTetris
PDF251February 7, 2026