Face0: Condicionamento Instantâneo de um Modelo de Texto para Imagem em um Rosto
Face0: Instantaneously Conditioning a Text-to-Image Model on a Face
June 11, 2023
Autores: Dani Valevski, Danny Wasserman, Yossi Matias, Yaniv Leviathan
cs.AI
Resumo
Apresentamos o Face0, uma nova abordagem para condicionar instantaneamente um modelo de geração de texto para imagem a um rosto, durante o tempo de amostragem, sem a necessidade de procedimentos de otimização como ajuste fino ou inversões. Aumentamos um conjunto de dados de imagens anotadas com embeddings dos rostos incluídos e treinamos um modelo de geração de imagens nesse conjunto de dados ampliado. Uma vez treinado, nosso sistema é praticamente idêntico ao modelo base no momento da inferência e, portanto, é capaz de gerar imagens, dado um rosto fornecido pelo usuário e um prompt, em apenas alguns segundos. Nosso método alcança resultados agradáveis, é notavelmente simples, extremamente rápido e equipa o modelo subjacente com novas capacidades, como controlar as imagens geradas tanto por texto quanto pela manipulação direta dos embeddings do rosto de entrada. Além disso, ao usar um vetor aleatório fixo em vez de um embedding de rosto de uma imagem fornecida pelo usuário, nosso método essencialmente resolve o problema de geração consistente de personagens entre imagens. Por fim, embora exija mais pesquisas, esperamos que nosso método, que desacopla os vieses textuais do modelo de seus vieses em rostos, possa ser um passo em direção à mitigação de vieses em futuros modelos de texto para imagem.
English
We present Face0, a novel way to instantaneously condition a text-to-image
generation model on a face, in sample time, without any optimization procedures
such as fine-tuning or inversions. We augment a dataset of annotated images
with embeddings of the included faces and train an image generation model, on
the augmented dataset. Once trained, our system is practically identical at
inference time to the underlying base model, and is therefore able to generate
images, given a user-supplied face image and a prompt, in just a couple of
seconds. Our method achieves pleasing results, is remarkably simple, extremely
fast, and equips the underlying model with new capabilities, like controlling
the generated images both via text or via direct manipulation of the input face
embeddings. In addition, when using a fixed random vector instead of a face
embedding from a user supplied image, our method essentially solves the problem
of consistent character generation across images. Finally, while requiring
further research, we hope that our method, which decouples the model's textual
biases from its biases on faces, might be a step towards some mitigation of
biases in future text-to-image models.