ChatPaper.aiChatPaper

Face0 : Conditionnement instantané d'un modèle de génération d'images à partir de texte sur un visage

Face0: Instantaneously Conditioning a Text-to-Image Model on a Face

June 11, 2023
Auteurs: Dani Valevski, Danny Wasserman, Yossi Matias, Yaniv Leviathan
cs.AI

Résumé

Nous présentons Face0, une nouvelle méthode permettant de conditionner instantanément un modèle de génération d'images à partir de texte sur un visage, en temps réel, sans aucune procédure d'optimisation telle que le fine-tuning ou les inversions. Nous enrichissons un jeu de données d'images annotées avec des embeddings des visages inclus et entraînons un modèle de génération d'images sur ce jeu de données augmenté. Une fois entraîné, notre système est pratiquement identique au modèle de base lors de l'inférence, et est donc capable de générer des images, à partir d'une image de visage fournie par l'utilisateur et d'une invite, en quelques secondes seulement. Notre méthode produit des résultats satisfaisants, est remarquablement simple, extrêmement rapide, et dote le modèle sous-jacent de nouvelles capacités, comme le contrôle des images générées à la fois par le texte ou par la manipulation directe des embeddings de visage en entrée. De plus, lorsqu'on utilise un vecteur aléatoire fixe au lieu d'un embedding de visage provenant d'une image fournie par l'utilisateur, notre méthode résout essentiellement le problème de la génération cohérente de personnages à travers les images. Enfin, bien que nécessitant des recherches supplémentaires, nous espérons que notre méthode, qui découple les biais textuels du modèle de ses biais sur les visages, pourrait constituer un pas vers l'atténuation de certains biais dans les futurs modèles de génération d'images à partir de texte.
English
We present Face0, a novel way to instantaneously condition a text-to-image generation model on a face, in sample time, without any optimization procedures such as fine-tuning or inversions. We augment a dataset of annotated images with embeddings of the included faces and train an image generation model, on the augmented dataset. Once trained, our system is practically identical at inference time to the underlying base model, and is therefore able to generate images, given a user-supplied face image and a prompt, in just a couple of seconds. Our method achieves pleasing results, is remarkably simple, extremely fast, and equips the underlying model with new capabilities, like controlling the generated images both via text or via direct manipulation of the input face embeddings. In addition, when using a fixed random vector instead of a face embedding from a user supplied image, our method essentially solves the problem of consistent character generation across images. Finally, while requiring further research, we hope that our method, which decouples the model's textual biases from its biases on faces, might be a step towards some mitigation of biases in future text-to-image models.
PDF171December 15, 2024