ChatPaper.aiChatPaper

Intégrer n'importe qui dans les modèles de diffusion via la base Celeb

Inserting Anybody in Diffusion Models via Celeb Basis

June 1, 2023
Auteurs: Ge Yuan, Xiaodong Cun, Yong Zhang, Maomao Li, Chenyang Qi, Xintao Wang, Ying Shan, Huicheng Zheng
cs.AI

Résumé

Il existe une demande exquise pour personnaliser les grands modèles pré-entraînés de génération d'images à partir de texte, comme Stable Diffusion, afin de générer des concepts innovants, tels que les utilisateurs eux-mêmes. Cependant, le nouveau concept ajouté par les méthodes de personnalisation précédentes montre souvent des capacités de combinaison plus faibles que les concepts originaux, même avec plusieurs images fournies pendant l'entraînement. Nous proposons donc une nouvelle méthode de personnalisation qui permet l'intégration transparente d'un individu unique dans le modèle de diffusion pré-entraîné en utilisant une seule photographie faciale et seulement 1024 paramètres apprenables en moins de 3 minutes. Ainsi, nous pouvons générer sans effort des images époustouflantes de cette personne dans n'importe quelle pose ou position, interagissant avec quiconque et faisant tout ce qui est imaginable à partir de prompts textuels. Pour y parvenir, nous analysons et construisons d'abord une base de célébrités bien définie à partir de l'espace d'embedding du grand encodeur de texte pré-entraîné. Ensuite, étant donné une photo faciale comme identité cible, nous générons son propre embedding en optimisant le poids de cette base et en verrouillant tous les autres paramètres. Grâce à la base de célébrités proposée, la nouvelle identité dans notre modèle personnalisé démontre une meilleure capacité de combinaison de concepts que les méthodes de personnalisation précédentes. De plus, notre modèle peut également apprendre plusieurs nouvelles identités simultanément et les faire interagir entre elles, là où le modèle de personnalisation précédent échoue. Le code sera publié.
English
Exquisite demand exists for customizing the pretrained large text-to-image model, e.g., Stable Diffusion, to generate innovative concepts, such as the users themselves. However, the newly-added concept from previous customization methods often shows weaker combination abilities than the original ones even given several images during training. We thus propose a new personalization method that allows for the seamless integration of a unique individual into the pre-trained diffusion model using just one facial photograph and only 1024 learnable parameters under 3 minutes. So as we can effortlessly generate stunning images of this person in any pose or position, interacting with anyone and doing anything imaginable from text prompts. To achieve this, we first analyze and build a well-defined celeb basis from the embedding space of the pre-trained large text encoder. Then, given one facial photo as the target identity, we generate its own embedding by optimizing the weight of this basis and locking all other parameters. Empowered by the proposed celeb basis, the new identity in our customized model showcases a better concept combination ability than previous personalization methods. Besides, our model can also learn several new identities at once and interact with each other where the previous customization model fails to. The code will be released.
PDF33December 15, 2024