Face0: Direct conditioneren van een tekst-naar-beeldmodel op een gezicht
Face0: Instantaneously Conditioning a Text-to-Image Model on a Face
June 11, 2023
Auteurs: Dani Valevski, Danny Wasserman, Yossi Matias, Yaniv Leviathan
cs.AI
Samenvatting
We presenteren Face0, een nieuwe methode om een tekst-naar-beeld generatiemodel direct te conditioneren op een gezicht, tijdens de sampletijd, zonder enige optimalisatieprocedures zoals fine-tuning of inversies. We verrijken een dataset van geannoteerde afbeeldingen met embeddings van de aanwezige gezichten en trainen een beeldgeneratiemodel op de verrijkte dataset. Eenmaal getraind, is ons systeem tijdens de inferentie praktisch identiek aan het onderliggende basismodel, en is het daarom in staat om afbeeldingen te genereren, gegeven een door de gebruiker aangeleverd gezichtsbeeld en een prompt, in slechts een paar seconden. Onze methode behaalt bevredigende resultaten, is opmerkelijk eenvoudig, extreem snel, en voorziet het onderliggende model van nieuwe mogelijkheden, zoals het controleren van de gegenereerde afbeeldingen zowel via tekst als via directe manipulatie van de invoergezichtsembeddings. Bovendien, wanneer we een vast willekeurig vector gebruiken in plaats van een gezichtsembedding van een door de gebruiker aangeleverd beeld, lost onze methode in essentie het probleem op van consistente karaktergeneratie over afbeeldingen heen. Tot slot, hoewel verder onderzoek nodig is, hopen we dat onze methode, die de tekstuele vooroordelen van het model ontkoppelt van zijn vooroordelen op gezichten, een stap zou kunnen zijn naar enige vermindering van vooroordelen in toekomstige tekst-naar-beeld modellen.
English
We present Face0, a novel way to instantaneously condition a text-to-image
generation model on a face, in sample time, without any optimization procedures
such as fine-tuning or inversions. We augment a dataset of annotated images
with embeddings of the included faces and train an image generation model, on
the augmented dataset. Once trained, our system is practically identical at
inference time to the underlying base model, and is therefore able to generate
images, given a user-supplied face image and a prompt, in just a couple of
seconds. Our method achieves pleasing results, is remarkably simple, extremely
fast, and equips the underlying model with new capabilities, like controlling
the generated images both via text or via direct manipulation of the input face
embeddings. In addition, when using a fixed random vector instead of a face
embedding from a user supplied image, our method essentially solves the problem
of consistent character generation across images. Finally, while requiring
further research, we hope that our method, which decouples the model's textual
biases from its biases on faces, might be a step towards some mitigation of
biases in future text-to-image models.