ChatPaper.aiChatPaper

PhotoMaker: Anpassung realistischer menschlicher Fotos durch gestapelte ID-Einbettungen

PhotoMaker: Customizing Realistic Human Photos via Stacked ID Embedding

December 7, 2023
Autoren: Zhen Li, Mingdeng Cao, Xintao Wang, Zhongang Qi, Ming-Ming Cheng, Ying Shan
cs.AI

Zusammenfassung

Jüngste Fortschritte in der Text-zu-Bild-Generierung haben bemerkenswerte Fortschritte bei der Synthese realistischer menschlicher Fotos auf der Grundlage gegebener Textanweisungen erzielt. Allerdings können bestehende personalisierte Generierungsmethoden nicht gleichzeitig die Anforderungen an hohe Effizienz, überzeugende Identitäts (ID)-Treue und flexible Textsteuerbarkeit erfüllen. In dieser Arbeit stellen wir PhotoMaker vor, eine effiziente Methode zur personalisierten Text-zu-Bild-Generierung, die hauptsächlich eine beliebige Anzahl von Eingabe-ID-Bildern in eine stapelbare ID-Einbettung kodiert, um die ID-Informationen zu bewahren. Eine solche Einbettung, die als einheitliche ID-Darstellung dient, kann nicht nur die Merkmale derselben Eingabe-ID umfassend erfassen, sondern auch die Merkmale verschiedener IDs für die anschließende Integration berücksichtigen. Dies ebnet den Weg für interessantere und praktisch wertvollere Anwendungen. Darüber hinaus schlagen wir zur Steuerung des Trainings unseres PhotoMakers eine ID-orientierte Datenkonstruktionspipeline vor, um die Trainingsdaten zusammenzustellen. Unter der Pflege des durch die vorgeschlagene Pipeline konstruierten Datensatzes zeigt unser PhotoMaker eine bessere Fähigkeit zur ID-Erhaltung als Methoden, die auf Feinabstimmung zur Testzeit basieren, bietet jedoch gleichzeitig signifikante Geschwindigkeitsverbesserungen, hochwertige Generierungsergebnisse, starke Generalisierungsfähigkeiten und eine breite Palette von Anwendungen. Unsere Projektseite ist verfügbar unter https://photo-maker.github.io/.
English
Recent advances in text-to-image generation have made remarkable progress in synthesizing realistic human photos conditioned on given text prompts. However, existing personalized generation methods cannot simultaneously satisfy the requirements of high efficiency, promising identity (ID) fidelity, and flexible text controllability. In this work, we introduce PhotoMaker, an efficient personalized text-to-image generation method, which mainly encodes an arbitrary number of input ID images into a stack ID embedding for preserving ID information. Such an embedding, serving as a unified ID representation, can not only encapsulate the characteristics of the same input ID comprehensively, but also accommodate the characteristics of different IDs for subsequent integration. This paves the way for more intriguing and practically valuable applications. Besides, to drive the training of our PhotoMaker, we propose an ID-oriented data construction pipeline to assemble the training data. Under the nourishment of the dataset constructed through the proposed pipeline, our PhotoMaker demonstrates better ID preservation ability than test-time fine-tuning based methods, yet provides significant speed improvements, high-quality generation results, strong generalization capabilities, and a wide range of applications. Our project page is available at https://photo-maker.github.io/
PDF6216December 15, 2024