Inserindo Qualquer Pessoa em Modelos de Difusão via Base de Celebridades
Inserting Anybody in Diffusion Models via Celeb Basis
June 1, 2023
Autores: Ge Yuan, Xiaodong Cun, Yong Zhang, Maomao Li, Chenyang Qi, Xintao Wang, Ying Shan, Huicheng Zheng
cs.AI
Resumo
Existe uma demanda refinada por personalizar modelos pré-treinados de texto para imagem em grande escala, como o Stable Diffusion, para gerar conceitos inovadores, como os próprios usuários. No entanto, o conceito recém-adicionado por métodos de personalização anteriores frequentemente apresenta habilidades de combinação mais fracas do que os originais, mesmo quando várias imagens são fornecidas durante o treinamento. Assim, propomos um novo método de personalização que permite a integração perfeita de um indivíduo único no modelo de difusão pré-treinado utilizando apenas uma fotografia facial e apenas 1024 parâmetros aprendíveis em menos de 3 minutos. Dessa forma, podemos gerar facilmente imagens impressionantes dessa pessoa em qualquer pose ou posição, interagindo com qualquer pessoa e realizando qualquer ação imaginável a partir de prompts de texto. Para alcançar isso, primeiro analisamos e construímos uma base de celebridades bem definida a partir do espaço de incorporação do grande codificador de texto pré-treinado. Em seguida, dada uma foto facial como a identidade alvo, geramos sua própria incorporação otimizando o peso dessa base e bloqueando todos os outros parâmetros. Potencializada pela base de celebridades proposta, a nova identidade em nosso modelo personalizado demonstra uma melhor capacidade de combinação de conceitos do que os métodos de personalização anteriores. Além disso, nosso modelo também pode aprender várias novas identidades simultaneamente e interagir entre si, algo que o modelo de personalização anterior não conseguia. O código será liberado.
English
Exquisite demand exists for customizing the pretrained large text-to-image
model, e.g., Stable Diffusion, to generate innovative concepts, such
as the users themselves. However, the newly-added concept from previous
customization methods often shows weaker combination abilities than the
original ones even given several images during training. We thus propose a new
personalization method that allows for the seamless integration of a unique
individual into the pre-trained diffusion model using just one facial
photograph and only 1024 learnable parameters under 3
minutes. So as we can effortlessly generate stunning images of this person in
any pose or position, interacting with anyone and doing anything imaginable
from text prompts. To achieve this, we first analyze and build a well-defined
celeb basis from the embedding space of the pre-trained large text encoder.
Then, given one facial photo as the target identity, we generate its own
embedding by optimizing the weight of this basis and locking all other
parameters. Empowered by the proposed celeb basis, the new identity in our
customized model showcases a better concept combination ability than previous
personalization methods. Besides, our model can also learn several new
identities at once and interact with each other where the previous
customization model fails to. The code will be released.