CustomVideo: Personalizando a Geração de Texto para Vídeo com Múltiplos Sujeitos
CustomVideo: Customizing Text-to-Video Generation with Multiple Subjects
January 18, 2024
Autores: Zhao Wang, Aoxue Li, Enze Xie, Lingting Zhu, Yong Guo, Qi Dou, Zhenguo Li
cs.AI
Resumo
A geração personalizada de texto para vídeo visa criar vídeos de alta qualidade guiados por prompts de texto e referências de assuntos. As abordagens atuais projetadas para um único assunto enfrentam dificuldades ao lidar com múltiplos assuntos, o que representa um cenário mais desafiador e prático. Neste trabalho, buscamos promover a personalização de texto para vídeo guiada por múltiplos assuntos. Propomos o CustomVideo, um novo framework capaz de gerar vídeos que preservam a identidade com a orientação de múltiplos assuntos. Especificamente, primeiro incentivamos a coocorrência de múltiplos assuntos ao compô-los em uma única imagem. Além disso, com base em um modelo básico de difusão de texto para vídeo, projetamos uma estratégia de controle de atenção simples, porém eficaz, para desembaraçar diferentes assuntos no espaço latente do modelo de difusão. Adicionalmente, para ajudar o modelo a focar na área específica do objeto, segmentamos o objeto a partir das imagens de referência fornecidas e oferecemos uma máscara de objeto correspondente para o aprendizado de atenção. Também coletamos um conjunto de dados de geração de texto para vídeo com múltiplos assuntos como um benchmark abrangente, contendo 69 assuntos individuais e 57 pares significativos. Resultados extensivos de análises qualitativas, quantitativas e estudos com usuários demonstram a superioridade do nosso método em comparação com as abordagens state-of-the-art anteriores.
English
Customized text-to-video generation aims to generate high-quality videos
guided by text prompts and subject references. Current approaches designed for
single subjects suffer from tackling multiple subjects, which is a more
challenging and practical scenario. In this work, we aim to promote
multi-subject guided text-to-video customization. We propose CustomVideo, a
novel framework that can generate identity-preserving videos with the guidance
of multiple subjects. To be specific, firstly, we encourage the co-occurrence
of multiple subjects via composing them in a single image. Further, upon a
basic text-to-video diffusion model, we design a simple yet effective attention
control strategy to disentangle different subjects in the latent space of
diffusion model. Moreover, to help the model focus on the specific object area,
we segment the object from given reference images and provide a corresponding
object mask for attention learning. Also, we collect a multi-subject
text-to-video generation dataset as a comprehensive benchmark, with 69
individual subjects and 57 meaningful pairs. Extensive qualitative,
quantitative, and user study results demonstrate the superiority of our method,
compared with the previous state-of-the-art approaches.