PhotoMaker: Aanpassen van realistische menselijke foto's via gestapelde ID-embedding
PhotoMaker: Customizing Realistic Human Photos via Stacked ID Embedding
December 7, 2023
Auteurs: Zhen Li, Mingdeng Cao, Xintao Wang, Zhongang Qi, Ming-Ming Cheng, Ying Shan
cs.AI
Samenvatting
Recente vooruitgang in tekst-naar-beeldgeneratie heeft opmerkelijke vooruitgang geboekt in het synthetiseren van realistische menselijke foto's op basis van gegeven tekstprompts. Bestaande gepersonaliseerde generatiemethoden kunnen echter niet tegelijkertijd voldoen aan de eisen van hoge efficiëntie, veelbelovende identiteit (ID)-trouw en flexibele tekstbestuurbaarheid. In dit werk introduceren we PhotoMaker, een efficiënte gepersonaliseerde tekst-naar-beeldgeneratiemethode, die voornamelijk een willekeurig aantal invoer-ID-afbeeldingen codeert in een stapel-ID-embedding om ID-informatie te behouden. Zo'n embedding, die dient als een uniforme ID-representatie, kan niet alleen de kenmerken van dezelfde invoer-ID uitgebreid omvatten, maar ook de kenmerken van verschillende ID's accommoderen voor latere integratie. Dit opent de weg voor meer intrigerende en praktisch waardevolle toepassingen. Daarnaast stellen we, om de training van onze PhotoMaker aan te sturen, een ID-gerichte dataconstructiepijplijn voor om de trainingsdata samen te stellen. Onder de voeding van de dataset die is geconstrueerd via de voorgestelde pijplijn, toont onze PhotoMaker een betere ID-behoudvermogen dan methoden die gebaseerd zijn op fine-tuning tijdens de testfase, terwijl het significante snelheidsverbeteringen, hoogwaardige generatieresultaten, sterke generalisatiecapaciteiten en een breed scala aan toepassingen biedt. Onze projectpagina is beschikbaar op https://photo-maker.github.io/.
English
Recent advances in text-to-image generation have made remarkable progress in
synthesizing realistic human photos conditioned on given text prompts. However,
existing personalized generation methods cannot simultaneously satisfy the
requirements of high efficiency, promising identity (ID) fidelity, and flexible
text controllability. In this work, we introduce PhotoMaker, an efficient
personalized text-to-image generation method, which mainly encodes an arbitrary
number of input ID images into a stack ID embedding for preserving ID
information. Such an embedding, serving as a unified ID representation, can not
only encapsulate the characteristics of the same input ID comprehensively, but
also accommodate the characteristics of different IDs for subsequent
integration. This paves the way for more intriguing and practically valuable
applications. Besides, to drive the training of our PhotoMaker, we propose an
ID-oriented data construction pipeline to assemble the training data. Under the
nourishment of the dataset constructed through the proposed pipeline, our
PhotoMaker demonstrates better ID preservation ability than test-time
fine-tuning based methods, yet provides significant speed improvements,
high-quality generation results, strong generalization capabilities, and a wide
range of applications. Our project page is available at
https://photo-maker.github.io/