Face0: Condizionamento istantaneo di un modello text-to-image su un volto
Face0: Instantaneously Conditioning a Text-to-Image Model on a Face
June 11, 2023
Autori: Dani Valevski, Danny Wasserman, Yossi Matias, Yaniv Leviathan
cs.AI
Abstract
Presentiamo Face0, un metodo innovativo per condizionare istantaneamente un modello di generazione di immagini da testo su un volto, durante il tempo di campionamento, senza alcuna procedura di ottimizzazione come il fine-tuning o le inversioni. Aumentiamo un dataset di immagini annotate con gli embedding dei volti inclusi e addestriamo un modello di generazione di immagini sul dataset aumentato. Una volta addestrato, il nostro sistema è praticamente identico al modello base durante l'inferenza, ed è quindi in grado di generare immagini, dato un'immagine di un volto fornita dall'utente e una descrizione testuale, in pochi secondi. Il nostro metodo produce risultati piacevoli, è notevolmente semplice, estremamente veloce e fornisce al modello sottostante nuove capacità, come il controllo delle immagini generate sia tramite testo che tramite la manipolazione diretta degli embedding dei volti in input. Inoltre, quando si utilizza un vettore casuale fisso invece di un embedding di un volto proveniente da un'immagine fornita dall'utente, il nostro metodo risolve essenzialmente il problema della generazione coerente di personaggi attraverso diverse immagini. Infine, pur richiedendo ulteriori ricerche, speriamo che il nostro metodo, che disaccoppia i bias testuali del modello dai suoi bias sui volti, possa rappresentare un passo verso la mitigazione di alcuni bias nei futuri modelli di generazione di immagini da testo.
English
We present Face0, a novel way to instantaneously condition a text-to-image
generation model on a face, in sample time, without any optimization procedures
such as fine-tuning or inversions. We augment a dataset of annotated images
with embeddings of the included faces and train an image generation model, on
the augmented dataset. Once trained, our system is practically identical at
inference time to the underlying base model, and is therefore able to generate
images, given a user-supplied face image and a prompt, in just a couple of
seconds. Our method achieves pleasing results, is remarkably simple, extremely
fast, and equips the underlying model with new capabilities, like controlling
the generated images both via text or via direct manipulation of the input face
embeddings. In addition, when using a fixed random vector instead of a face
embedding from a user supplied image, our method essentially solves the problem
of consistent character generation across images. Finally, while requiring
further research, we hope that our method, which decouples the model's textual
biases from its biases on faces, might be a step towards some mitigation of
biases in future text-to-image models.