PhotoMaker: Anpassung realistischer menschlicher Fotos durch gestapelte ID-Einbettungen
PhotoMaker: Customizing Realistic Human Photos via Stacked ID Embedding
December 7, 2023
Autoren: Zhen Li, Mingdeng Cao, Xintao Wang, Zhongang Qi, Ming-Ming Cheng, Ying Shan
cs.AI
Zusammenfassung
Jüngste Fortschritte in der Text-zu-Bild-Generierung haben bemerkenswerte Fortschritte bei der Synthese realistischer menschlicher Fotos auf der Grundlage gegebener Textanweisungen erzielt. Allerdings können bestehende personalisierte Generierungsmethoden nicht gleichzeitig die Anforderungen an hohe Effizienz, überzeugende Identitäts (ID)-Treue und flexible Textsteuerbarkeit erfüllen. In dieser Arbeit stellen wir PhotoMaker vor, eine effiziente Methode zur personalisierten Text-zu-Bild-Generierung, die hauptsächlich eine beliebige Anzahl von Eingabe-ID-Bildern in eine stapelbare ID-Einbettung kodiert, um die ID-Informationen zu bewahren. Eine solche Einbettung, die als einheitliche ID-Darstellung dient, kann nicht nur die Merkmale derselben Eingabe-ID umfassend erfassen, sondern auch die Merkmale verschiedener IDs für die anschließende Integration berücksichtigen. Dies ebnet den Weg für interessantere und praktisch wertvollere Anwendungen. Darüber hinaus schlagen wir zur Steuerung des Trainings unseres PhotoMakers eine ID-orientierte Datenkonstruktionspipeline vor, um die Trainingsdaten zusammenzustellen. Unter der Pflege des durch die vorgeschlagene Pipeline konstruierten Datensatzes zeigt unser PhotoMaker eine bessere Fähigkeit zur ID-Erhaltung als Methoden, die auf Feinabstimmung zur Testzeit basieren, bietet jedoch gleichzeitig signifikante Geschwindigkeitsverbesserungen, hochwertige Generierungsergebnisse, starke Generalisierungsfähigkeiten und eine breite Palette von Anwendungen. Unsere Projektseite ist verfügbar unter https://photo-maker.github.io/.
English
Recent advances in text-to-image generation have made remarkable progress in
synthesizing realistic human photos conditioned on given text prompts. However,
existing personalized generation methods cannot simultaneously satisfy the
requirements of high efficiency, promising identity (ID) fidelity, and flexible
text controllability. In this work, we introduce PhotoMaker, an efficient
personalized text-to-image generation method, which mainly encodes an arbitrary
number of input ID images into a stack ID embedding for preserving ID
information. Such an embedding, serving as a unified ID representation, can not
only encapsulate the characteristics of the same input ID comprehensively, but
also accommodate the characteristics of different IDs for subsequent
integration. This paves the way for more intriguing and practically valuable
applications. Besides, to drive the training of our PhotoMaker, we propose an
ID-oriented data construction pipeline to assemble the training data. Under the
nourishment of the dataset constructed through the proposed pipeline, our
PhotoMaker demonstrates better ID preservation ability than test-time
fine-tuning based methods, yet provides significant speed improvements,
high-quality generation results, strong generalization capabilities, and a wide
range of applications. Our project page is available at
https://photo-maker.github.io/