VideoTetris: Rumo à Geração Composicional de Texto para Vídeo
VideoTetris: Towards Compositional Text-to-Video Generation
June 6, 2024
Autores: Ye Tian, Ling Yang, Haotian Yang, Yuan Gao, Yufan Deng, Jingmin Chen, Xintao Wang, Zhaochen Yu, Xin Tao, Pengfei Wan, Di Zhang, Bin Cui
cs.AI
Resumo
Modelos de difusão têm demonstrado grande sucesso na geração de texto para vídeo (T2V). No entanto, os métodos existentes podem enfrentar desafios ao lidar com cenários complexos de geração de vídeos (longos) que envolvem múltiplos objetos ou mudanças dinâmicas no número de objetos. Para abordar essas limitações, propomos o VideoTetris, uma nova estrutura que permite a geração composicional de T2V. Especificamente, propomos a difusão composicional espaço-temporal para seguir precisamente a semântica textual complexa, manipulando e compondo os mapas de atenção das redes de remoção de ruído espacial e temporalmente. Além disso, propomos um pré-processamento de dados de vídeo aprimorado para melhorar os dados de treinamento em relação à dinâmica de movimento e à compreensão de prompts, equipado com um novo mecanismo de atenção de quadro de referência para melhorar a consistência da geração de vídeo auto-regressiva. Experimentos extensivos demonstram que nosso VideoTetris alcança resultados qualitativos e quantitativos impressionantes na geração composicional de T2V. O código está disponível em: https://github.com/YangLing0818/VideoTetris.
English
Diffusion models have demonstrated great success in text-to-video (T2V)
generation. However, existing methods may face challenges when handling complex
(long) video generation scenarios that involve multiple objects or dynamic
changes in object numbers. To address these limitations, we propose
VideoTetris, a novel framework that enables compositional T2V generation.
Specifically, we propose spatio-temporal compositional diffusion to precisely
follow complex textual semantics by manipulating and composing the attention
maps of denoising networks spatially and temporally. Moreover, we propose an
enhanced video data preprocessing to enhance the training data regarding motion
dynamics and prompt understanding, equipped with a new reference frame
attention mechanism to improve the consistency of auto-regressive video
generation. Extensive experiments demonstrate that our VideoTetris achieves
impressive qualitative and quantitative results in compositional T2V
generation. Code is available at: https://github.com/YangLing0818/VideoTetris