Factorized-Dreamer: Treinando um Gerador de Vídeo de Alta Qualidade com Dados Limitados e de Baixa Qualidade
Factorized-Dreamer: Training A High-Quality Video Generator with Limited and Low-Quality Data
August 19, 2024
Autores: Tao Yang, Yangming Shi, Yunwen Huang, Feng Chen, Yin Zheng, Lei Zhang
cs.AI
Resumo
A geração de texto para vídeo (T2V) tem recebido significativa atenção devido às suas amplas aplicações na geração, edição, aprimoramento e tradução de vídeos, etc. No entanto, a síntese de vídeo de alta qualidade (HQ) é extremamente desafiadora devido aos movimentos diversos e complexos existentes no mundo real. A maioria dos trabalhos existentes luta para abordar esse problema ao coletar vídeos HQ em grande escala, que são inacessíveis à comunidade. Neste trabalho, demonstramos que dados limitados e de baixa qualidade (LQ) disponíveis publicamente são suficientes para treinar um gerador de vídeo HQ sem recaptura ou ajuste fino. Fatorizamos todo o processo de geração T2V em dois passos: gerar uma imagem condicionada a uma legenda altamente descritiva e sintetizar o vídeo condicionado à imagem gerada e a uma legenda concisa dos detalhes de movimento. Especificamente, apresentamos o Factorized-Dreamer, um framework espaço-temporal fatorizado com vários designs críticos para a geração T2V, incluindo um adaptador para combinar incorporações de texto e imagem, um módulo de atenção cruzada consciente de pixels para capturar informações de imagem em nível de pixel, um codificador de texto T5 para melhor compreensão da descrição de movimento e um PredictNet para supervisionar fluxos ópticos. Apresentamos ainda um cronograma de ruído, que desempenha um papel fundamental na garantia da qualidade e estabilidade da geração de vídeo. Nosso modelo reduz os requisitos em legendas detalhadas e vídeos HQ, e pode ser treinado diretamente em conjuntos de dados LQ limitados com legendas ruidosas e breves, como o WebVid-10M, aliviando em grande parte o custo de coletar pares de vídeo-texto em grande escala. Experimentos extensivos em uma variedade de tarefas de geração T2V e de imagem para vídeo demonstram a eficácia do nosso Factorized-Dreamer proposto. Nossos códigos-fonte estão disponíveis em https://github.com/yangxy/Factorized-Dreamer/.
English
Text-to-video (T2V) generation has gained significant attention due to its
wide applications to video generation, editing, enhancement and translation,
\etc. However, high-quality (HQ) video synthesis is extremely challenging
because of the diverse and complex motions existed in real world. Most existing
works struggle to address this problem by collecting large-scale HQ videos,
which are inaccessible to the community. In this work, we show that publicly
available limited and low-quality (LQ) data are sufficient to train a HQ video
generator without recaptioning or finetuning. We factorize the whole T2V
generation process into two steps: generating an image conditioned on a highly
descriptive caption, and synthesizing the video conditioned on the generated
image and a concise caption of motion details. Specifically, we present
Factorized-Dreamer, a factorized spatiotemporal framework with several
critical designs for T2V generation, including an adapter to combine text and
image embeddings, a pixel-aware cross attention module to capture pixel-level
image information, a T5 text encoder to better understand motion description,
and a PredictNet to supervise optical flows. We further present a noise
schedule, which plays a key role in ensuring the quality and stability of video
generation. Our model lowers the requirements in detailed captions and HQ
videos, and can be directly trained on limited LQ datasets with noisy and brief
captions such as WebVid-10M, largely alleviating the cost to collect
large-scale HQ video-text pairs. Extensive experiments in a variety of T2V and
image-to-video generation tasks demonstrate the effectiveness of our proposed
Factorized-Dreamer. Our source codes are available at
https://github.com/yangxy/Factorized-Dreamer/.Summary
AI-Generated Summary