VideoTetris: Rumo à Geração Composicional de Texto para Vídeo

Resumo

Modelos de difusão têm demonstrado grande sucesso na geração de texto para vídeo (T2V). No entanto, os métodos existentes podem enfrentar desafios ao lidar com cenários complexos de geração de vídeos (longos) que envolvem múltiplos objetos ou mudanças dinâmicas no número de objetos. Para abordar essas limitações, propomos o VideoTetris, uma nova estrutura que permite a geração composicional de T2V. Especificamente, propomos a difusão composicional espaço-temporal para seguir precisamente a semântica textual complexa, manipulando e compondo os mapas de atenção das redes de remoção de ruído espacial e temporalmente. Além disso, propomos um pré-processamento de dados de vídeo aprimorado para melhorar os dados de treinamento em relação à dinâmica de movimento e à compreensão de prompts, equipado com um novo mecanismo de atenção de quadro de referência para melhorar a consistência da geração de vídeo auto-regressiva. Experimentos extensivos demonstram que nosso VideoTetris alcança resultados qualitativos e quantitativos impressionantes na geração composicional de T2V. O código está disponível em: https://github.com/YangLing0818/VideoTetris.

English

Diffusion models have demonstrated great success in text-to-video (T2V) generation. However, existing methods may face challenges when handling complex (long) video generation scenarios that involve multiple objects or dynamic changes in object numbers. To address these limitations, we propose VideoTetris, a novel framework that enables compositional T2V generation. Specifically, we propose spatio-temporal compositional diffusion to precisely follow complex textual semantics by manipulating and composing the attention maps of denoising networks spatially and temporally. Moreover, we propose an enhanced video data preprocessing to enhance the training data regarding motion dynamics and prompt understanding, equipped with a new reference frame attention mechanism to improve the consistency of auto-regressive video generation. Extensive experiments demonstrate that our VideoTetris achieves impressive qualitative and quantitative results in compositional T2V generation. Code is available at: https://github.com/YangLing0818/VideoTetris

VideoTetris: Rumo à Geração Composicional de Texto para Vídeo

VideoTetris: Towards Compositional Text-to-Video Generation

Resumo

Support