CustomVideo : Personnalisation de la génération texte-vidéo avec plusieurs sujets
CustomVideo: Customizing Text-to-Video Generation with Multiple Subjects
January 18, 2024
Auteurs: Zhao Wang, Aoxue Li, Enze Xie, Lingting Zhu, Yong Guo, Qi Dou, Zhenguo Li
cs.AI
Résumé
La génération personnalisée de texte-à-vidéo vise à produire des vidéos de haute qualité guidées par des invites textuelles et des références de sujets. Les approches actuelles conçues pour des sujets uniques peinent à gérer plusieurs sujets, un scénario plus complexe et pratique. Dans ce travail, nous cherchons à promouvoir la personnalisation de texte-à-vidéo guidée par plusieurs sujets. Nous proposons CustomVideo, un nouveau cadre capable de générer des vidéos préservant l'identité avec le guidage de plusieurs sujets. Plus précisément, nous encourageons d'abord la co-occurrence de plusieurs sujets en les composant dans une seule image. Ensuite, sur la base d'un modèle de diffusion texte-à-vidéo, nous concevons une stratégie de contrôle d'attention simple mais efficace pour dissocier les différents sujets dans l'espace latent du modèle de diffusion. De plus, pour aider le modèle à se concentrer sur la zone d'objet spécifique, nous segmentons l'objet à partir des images de référence fournies et fournissons un masque d'objet correspondant pour l'apprentissage de l'attention. Nous collectons également un ensemble de données de génération de texte-à-vidéo multi-sujets comme référence complète, comprenant 69 sujets individuels et 57 paires significatives. Les résultats qualitatifs, quantitatifs et d'études utilisateurs démontrent la supériorité de notre méthode par rapport aux approches précédentes de l'état de l'art.
English
Customized text-to-video generation aims to generate high-quality videos
guided by text prompts and subject references. Current approaches designed for
single subjects suffer from tackling multiple subjects, which is a more
challenging and practical scenario. In this work, we aim to promote
multi-subject guided text-to-video customization. We propose CustomVideo, a
novel framework that can generate identity-preserving videos with the guidance
of multiple subjects. To be specific, firstly, we encourage the co-occurrence
of multiple subjects via composing them in a single image. Further, upon a
basic text-to-video diffusion model, we design a simple yet effective attention
control strategy to disentangle different subjects in the latent space of
diffusion model. Moreover, to help the model focus on the specific object area,
we segment the object from given reference images and provide a corresponding
object mask for attention learning. Also, we collect a multi-subject
text-to-video generation dataset as a comprehensive benchmark, with 69
individual subjects and 57 meaningful pairs. Extensive qualitative,
quantitative, and user study results demonstrate the superiority of our method,
compared with the previous state-of-the-art approaches.