PhotoMaker: Personalizzazione di Foto Umane Realistiche tramite Incapsulamento di Identità a Livelli Multipli
PhotoMaker: Customizing Realistic Human Photos via Stacked ID Embedding
December 7, 2023
Autori: Zhen Li, Mingdeng Cao, Xintao Wang, Zhongang Qi, Ming-Ming Cheng, Ying Shan
cs.AI
Abstract
I recenti progressi nella generazione di immagini da testo hanno compiuto passi significativi nella sintesi di foto umane realistiche condizionate da prompt testuali. Tuttavia, i metodi di generazione personalizzata esistenti non riescono a soddisfare contemporaneamente i requisiti di alta efficienza, fedeltà promettente all'identità (ID) e controllabilità flessibile del testo. In questo lavoro, presentiamo PhotoMaker, un metodo efficiente di generazione personalizzata di immagini da testo, che codifica principalmente un numero arbitrario di immagini ID di input in un'incorporazione ID a stack per preservare le informazioni sull'identità. Tale incorporazione, che funge da rappresentazione ID unificata, non solo può racchiudere in modo completo le caratteristiche dello stesso ID di input, ma anche adattarsi alle caratteristiche di ID diversi per una successiva integrazione. Questo apre la strada a applicazioni più intriganti e di valore pratico. Inoltre, per guidare l'addestramento del nostro PhotoMaker, proponiamo una pipeline di costruzione dei dati orientata all'ID per assemblare i dati di addestramento. Sotto l'influenza del dataset costruito attraverso la pipeline proposta, il nostro PhotoMaker dimostra una migliore capacità di preservazione dell'ID rispetto ai metodi basati su fine-tuning al momento del test, offrendo al contempo miglioramenti significativi nella velocità, risultati di generazione di alta qualità, forti capacità di generalizzazione e un'ampia gamma di applicazioni. La nostra pagina del progetto è disponibile all'indirizzo https://photo-maker.github.io/.
English
Recent advances in text-to-image generation have made remarkable progress in
synthesizing realistic human photos conditioned on given text prompts. However,
existing personalized generation methods cannot simultaneously satisfy the
requirements of high efficiency, promising identity (ID) fidelity, and flexible
text controllability. In this work, we introduce PhotoMaker, an efficient
personalized text-to-image generation method, which mainly encodes an arbitrary
number of input ID images into a stack ID embedding for preserving ID
information. Such an embedding, serving as a unified ID representation, can not
only encapsulate the characteristics of the same input ID comprehensively, but
also accommodate the characteristics of different IDs for subsequent
integration. This paves the way for more intriguing and practically valuable
applications. Besides, to drive the training of our PhotoMaker, we propose an
ID-oriented data construction pipeline to assemble the training data. Under the
nourishment of the dataset constructed through the proposed pipeline, our
PhotoMaker demonstrates better ID preservation ability than test-time
fine-tuning based methods, yet provides significant speed improvements,
high-quality generation results, strong generalization capabilities, and a wide
range of applications. Our project page is available at
https://photo-maker.github.io/