PhotoMaker: Aanpassen van realistische menselijke foto's via gestapelde ID-embedding

Samenvatting

Recente vooruitgang in tekst-naar-beeldgeneratie heeft opmerkelijke vooruitgang geboekt in het synthetiseren van realistische menselijke foto's op basis van gegeven tekstprompts. Bestaande gepersonaliseerde generatiemethoden kunnen echter niet tegelijkertijd voldoen aan de eisen van hoge efficiëntie, veelbelovende identiteit (ID)-trouw en flexibele tekstbestuurbaarheid. In dit werk introduceren we PhotoMaker, een efficiënte gepersonaliseerde tekst-naar-beeldgeneratiemethode, die voornamelijk een willekeurig aantal invoer-ID-afbeeldingen codeert in een stapel-ID-embedding om ID-informatie te behouden. Zo'n embedding, die dient als een uniforme ID-representatie, kan niet alleen de kenmerken van dezelfde invoer-ID uitgebreid omvatten, maar ook de kenmerken van verschillende ID's accommoderen voor latere integratie. Dit opent de weg voor meer intrigerende en praktisch waardevolle toepassingen. Daarnaast stellen we, om de training van onze PhotoMaker aan te sturen, een ID-gerichte dataconstructiepijplijn voor om de trainingsdata samen te stellen. Onder de voeding van de dataset die is geconstrueerd via de voorgestelde pijplijn, toont onze PhotoMaker een betere ID-behoudvermogen dan methoden die gebaseerd zijn op fine-tuning tijdens de testfase, terwijl het significante snelheidsverbeteringen, hoogwaardige generatieresultaten, sterke generalisatiecapaciteiten en een breed scala aan toepassingen biedt. Onze projectpagina is beschikbaar op https://photo-maker.github.io/.

English

Recent advances in text-to-image generation have made remarkable progress in synthesizing realistic human photos conditioned on given text prompts. However, existing personalized generation methods cannot simultaneously satisfy the requirements of high efficiency, promising identity (ID) fidelity, and flexible text controllability. In this work, we introduce PhotoMaker, an efficient personalized text-to-image generation method, which mainly encodes an arbitrary number of input ID images into a stack ID embedding for preserving ID information. Such an embedding, serving as a unified ID representation, can not only encapsulate the characteristics of the same input ID comprehensively, but also accommodate the characteristics of different IDs for subsequent integration. This paves the way for more intriguing and practically valuable applications. Besides, to drive the training of our PhotoMaker, we propose an ID-oriented data construction pipeline to assemble the training data. Under the nourishment of the dataset constructed through the proposed pipeline, our PhotoMaker demonstrates better ID preservation ability than test-time fine-tuning based methods, yet provides significant speed improvements, high-quality generation results, strong generalization capabilities, and a wide range of applications. Our project page is available at https://photo-maker.github.io/

PhotoMaker: Aanpassen van realistische menselijke foto's via gestapelde ID-embedding

PhotoMaker: Customizing Realistic Human Photos via Stacked ID Embedding

Samenvatting

Support