Face0: Condicionamiento instantáneo de un modelo de texto a imagen en un rostro
Face0: Instantaneously Conditioning a Text-to-Image Model on a Face
June 11, 2023
Autores: Dani Valevski, Danny Wasserman, Yossi Matias, Yaniv Leviathan
cs.AI
Resumen
Presentamos Face0, una novedosa forma de condicionar instantáneamente un modelo de generación de texto a imagen sobre un rostro, en tiempo de muestreo, sin necesidad de procedimientos de optimización como ajuste fino o inversiones. Aumentamos un conjunto de datos de imágenes anotadas con incrustaciones (embeddings) de los rostros incluidos y entrenamos un modelo de generación de imágenes sobre el conjunto de datos aumentado. Una vez entrenado, nuestro sistema es prácticamente idéntico en tiempo de inferencia al modelo base subyacente y, por lo tanto, es capaz de generar imágenes, dada una imagen de rostro proporcionada por el usuario y un texto de entrada, en solo un par de segundos. Nuestro método logra resultados satisfactorios, es notablemente simple, extremadamente rápido y equipa al modelo subyacente con nuevas capacidades, como controlar las imágenes generadas tanto mediante texto como mediante la manipulación directa de las incrustaciones del rostro de entrada. Además, al usar un vector aleatorio fijo en lugar de una incrustación de rostro de una imagen proporcionada por el usuario, nuestro método esencialmente resuelve el problema de la generación consistente de personajes en diferentes imágenes. Finalmente, aunque requiere más investigación, esperamos que nuestro método, que desacopla los sesgos textuales del modelo de sus sesgos sobre rostros, pueda ser un paso hacia la mitigación de sesgos en futuros modelos de texto a imagen.
English
We present Face0, a novel way to instantaneously condition a text-to-image
generation model on a face, in sample time, without any optimization procedures
such as fine-tuning or inversions. We augment a dataset of annotated images
with embeddings of the included faces and train an image generation model, on
the augmented dataset. Once trained, our system is practically identical at
inference time to the underlying base model, and is therefore able to generate
images, given a user-supplied face image and a prompt, in just a couple of
seconds. Our method achieves pleasing results, is remarkably simple, extremely
fast, and equips the underlying model with new capabilities, like controlling
the generated images both via text or via direct manipulation of the input face
embeddings. In addition, when using a fixed random vector instead of a face
embedding from a user supplied image, our method essentially solves the problem
of consistent character generation across images. Finally, while requiring
further research, we hope that our method, which decouples the model's textual
biases from its biases on faces, might be a step towards some mitigation of
biases in future text-to-image models.