PhotoMaker : Personnalisation de photos humaines réalistes via l'incorporation empilée d'identités
PhotoMaker: Customizing Realistic Human Photos via Stacked ID Embedding
December 7, 2023
Auteurs: Zhen Li, Mingdeng Cao, Xintao Wang, Zhongang Qi, Ming-Ming Cheng, Ying Shan
cs.AI
Résumé
Les récents progrès dans la génération d'images à partir de texte ont permis des avancées remarquables dans la synthèse de photos humaines réalistes conditionnées par des descriptions textuelles. Cependant, les méthodes existantes de génération personnalisée ne parviennent pas à satisfaire simultanément les exigences de haute efficacité, de fidélité prometteuse à l'identité (ID), et de contrôle textuel flexible. Dans ce travail, nous présentons PhotoMaker, une méthode efficace de génération d'images à partir de texte personnalisée, qui encode principalement un nombre arbitraire d'images d'entrée d'ID en un embedding d'ID empilé pour préserver les informations d'identité. Cet embedding, servant de représentation unifiée de l'ID, peut non seulement encapsuler de manière exhaustive les caractéristiques du même ID d'entrée, mais aussi intégrer les caractéristiques de différents ID pour une intégration ultérieure. Cela ouvre la voie à des applications plus intrigantes et pratiquement précieuses. Par ailleurs, pour entraîner notre PhotoMaker, nous proposons un pipeline de construction de données orienté ID pour assembler les données d'entraînement. Grâce au jeu de données construit via ce pipeline, notre PhotoMaker démontre une meilleure capacité de préservation de l'ID que les méthodes basées sur le fine-tuning au moment du test, tout en offrant des améliorations significatives en termes de vitesse, des résultats de génération de haute qualité, de solides capacités de généralisation, et un large éventail d'applications. Notre page de projet est disponible à l'adresse https://photo-maker.github.io/.
English
Recent advances in text-to-image generation have made remarkable progress in
synthesizing realistic human photos conditioned on given text prompts. However,
existing personalized generation methods cannot simultaneously satisfy the
requirements of high efficiency, promising identity (ID) fidelity, and flexible
text controllability. In this work, we introduce PhotoMaker, an efficient
personalized text-to-image generation method, which mainly encodes an arbitrary
number of input ID images into a stack ID embedding for preserving ID
information. Such an embedding, serving as a unified ID representation, can not
only encapsulate the characteristics of the same input ID comprehensively, but
also accommodate the characteristics of different IDs for subsequent
integration. This paves the way for more intriguing and practically valuable
applications. Besides, to drive the training of our PhotoMaker, we propose an
ID-oriented data construction pipeline to assemble the training data. Under the
nourishment of the dataset constructed through the proposed pipeline, our
PhotoMaker demonstrates better ID preservation ability than test-time
fine-tuning based methods, yet provides significant speed improvements,
high-quality generation results, strong generalization capabilities, and a wide
range of applications. Our project page is available at
https://photo-maker.github.io/