ChatPaper.aiChatPaper

Face0: Sofortige Konditionierung eines Text-zu-Bild-Modells auf ein Gesicht

Face0: Instantaneously Conditioning a Text-to-Image Model on a Face

June 11, 2023
Autoren: Dani Valevski, Danny Wasserman, Yossi Matias, Yaniv Leviathan
cs.AI

Zusammenfassung

Wir präsentieren Face0, eine neuartige Methode, um ein Text-zu-Bild-Generierungsmodell in Echtzeit auf ein Gesicht zu konditionieren, ohne Optimierungsverfahren wie Feinabstimmung oder Inversionen. Wir erweitern einen Datensatz annotierter Bilder mit Einbettungen der enthaltenen Gesichter und trainieren ein Bildgenerierungsmodell auf dem erweiterten Datensatz. Einmal trainiert, ist unser System zur Inferenzzeit praktisch identisch mit dem zugrunde liegenden Basismodell und kann daher Bilder in nur wenigen Sekunden generieren, basierend auf einem vom Benutzer bereitgestellten Gesichtsbild und einem Prompt. Unsere Methode erzielt ansprechende Ergebnisse, ist bemerkenswert einfach, extrem schnell und stattet das zugrunde liegende Modell mit neuen Fähigkeiten aus, wie der Steuerung der generierten Bilder sowohl über Text als auch durch direkte Manipulation der Eingabe-Gesichtseinbettungen. Darüber hinaus löst unsere Methode im Wesentlichen das Problem der konsistenten Charaktergenerierung über Bilder hinweg, wenn anstelle einer Gesichtseinbettung aus einem Benutzerbild ein fester Zufallsvektor verwendet wird. Schließlich hoffen wir, dass unsere Methode, die die textuellen Verzerrungen des Modells von seinen Verzerrungen in Bezug auf Gesichter entkoppelt, einen Schritt zur Minderung von Verzerrungen in zukünftigen Text-zu-Bild-Modellen darstellen könnte, auch wenn hierzu weitere Forschung erforderlich ist.
English
We present Face0, a novel way to instantaneously condition a text-to-image generation model on a face, in sample time, without any optimization procedures such as fine-tuning or inversions. We augment a dataset of annotated images with embeddings of the included faces and train an image generation model, on the augmented dataset. Once trained, our system is practically identical at inference time to the underlying base model, and is therefore able to generate images, given a user-supplied face image and a prompt, in just a couple of seconds. Our method achieves pleasing results, is remarkably simple, extremely fast, and equips the underlying model with new capabilities, like controlling the generated images both via text or via direct manipulation of the input face embeddings. In addition, when using a fixed random vector instead of a face embedding from a user supplied image, our method essentially solves the problem of consistent character generation across images. Finally, while requiring further research, we hope that our method, which decouples the model's textual biases from its biases on faces, might be a step towards some mitigation of biases in future text-to-image models.
PDF171December 15, 2024