Inserción de cualquier persona en modelos de difusión mediante la base Celeb
Inserting Anybody in Diffusion Models via Celeb Basis
June 1, 2023
Autores: Ge Yuan, Xiaodong Cun, Yong Zhang, Maomao Li, Chenyang Qi, Xintao Wang, Ying Shan, Huicheng Zheng
cs.AI
Resumen
Existe una demanda exquisita por personalizar el modelo preentrenado de texto a imagen a gran escala, como Stable Diffusion, para generar conceptos innovadores, como los propios usuarios. Sin embargo, el concepto recién añadido mediante métodos de personalización anteriores suele mostrar una capacidad de combinación más débil que los originales, incluso cuando se proporcionan varias imágenes durante el entrenamiento. Por ello, proponemos un nuevo método de personalización que permite la integración perfecta de un individuo único en el modelo de difusión preentrenado utilizando solo una fotografía facial y únicamente 1024 parámetros entrenables en menos de 3 minutos. De esta manera, podemos generar sin esfuerzo imágenes impresionantes de esta persona en cualquier pose o posición, interactuando con cualquiera y realizando cualquier acción imaginable a partir de indicaciones de texto. Para lograrlo, primero analizamos y construimos una base de celebridades bien definida a partir del espacio de incrustación del gran codificador de texto preentrenado. Luego, dada una foto facial como la identidad objetivo, generamos su propia incrustación optimizando el peso de esta base y bloqueando todos los demás parámetros. Potenciado por la base de celebridades propuesta, la nueva identidad en nuestro modelo personalizado muestra una mejor capacidad de combinación de conceptos que los métodos de personalización anteriores. Además, nuestro modelo también puede aprender varias identidades nuevas simultáneamente e interactuar entre sí, algo que el modelo de personalización anterior no lograba. El código será liberado.
English
Exquisite demand exists for customizing the pretrained large text-to-image
model, e.g., Stable Diffusion, to generate innovative concepts, such
as the users themselves. However, the newly-added concept from previous
customization methods often shows weaker combination abilities than the
original ones even given several images during training. We thus propose a new
personalization method that allows for the seamless integration of a unique
individual into the pre-trained diffusion model using just one facial
photograph and only 1024 learnable parameters under 3
minutes. So as we can effortlessly generate stunning images of this person in
any pose or position, interacting with anyone and doing anything imaginable
from text prompts. To achieve this, we first analyze and build a well-defined
celeb basis from the embedding space of the pre-trained large text encoder.
Then, given one facial photo as the target identity, we generate its own
embedding by optimizing the weight of this basis and locking all other
parameters. Empowered by the proposed celeb basis, the new identity in our
customized model showcases a better concept combination ability than previous
personalization methods. Besides, our model can also learn several new
identities at once and interact with each other where the previous
customization model fails to. The code will be released.