PhotoMaker: Personalização de Fotos Realistas de Humanos via Incorporação de ID Empilhada
PhotoMaker: Customizing Realistic Human Photos via Stacked ID Embedding
December 7, 2023
Autores: Zhen Li, Mingdeng Cao, Xintao Wang, Zhongang Qi, Ming-Ming Cheng, Ying Shan
cs.AI
Resumo
Os avanços recentes na geração de imagens a partir de texto têm alcançado progressos notáveis na síntese de fotos realistas de humanos condicionadas a prompts de texto fornecidos. No entanto, os métodos existentes de geração personalizada não conseguem satisfazer simultaneamente os requisitos de alta eficiência, fidelidade promissora à identidade (ID) e controle flexível do texto. Neste trabalho, apresentamos o PhotoMaker, um método eficiente de geração personalizada de imagens a partir de texto, que codifica principalmente um número arbitrário de imagens de ID de entrada em uma incorporação de ID empilhada para preservar as informações de ID. Essa incorporação, servindo como uma representação unificada de ID, não apenas pode encapsular de forma abrangente as características da mesma ID de entrada, mas também acomodar as características de diferentes IDs para integração subsequente. Isso abre caminho para aplicações mais intrigantes e de valor prático. Além disso, para impulsionar o treinamento do nosso PhotoMaker, propomos um pipeline de construção de dados orientado a ID para montar os dados de treinamento. Sob a nutrição do conjunto de dados construído por meio do pipeline proposto, nosso PhotoMaker demonstra uma capacidade de preservação de ID superior aos métodos baseados em ajuste fino em tempo de teste, além de oferecer melhorias significativas de velocidade, resultados de geração de alta qualidade, fortes capacidades de generalização e uma ampla gama de aplicações. Nossa página do projeto está disponível em https://photo-maker.github.io/.
English
Recent advances in text-to-image generation have made remarkable progress in
synthesizing realistic human photos conditioned on given text prompts. However,
existing personalized generation methods cannot simultaneously satisfy the
requirements of high efficiency, promising identity (ID) fidelity, and flexible
text controllability. In this work, we introduce PhotoMaker, an efficient
personalized text-to-image generation method, which mainly encodes an arbitrary
number of input ID images into a stack ID embedding for preserving ID
information. Such an embedding, serving as a unified ID representation, can not
only encapsulate the characteristics of the same input ID comprehensively, but
also accommodate the characteristics of different IDs for subsequent
integration. This paves the way for more intriguing and practically valuable
applications. Besides, to drive the training of our PhotoMaker, we propose an
ID-oriented data construction pipeline to assemble the training data. Under the
nourishment of the dataset constructed through the proposed pipeline, our
PhotoMaker demonstrates better ID preservation ability than test-time
fine-tuning based methods, yet provides significant speed improvements,
high-quality generation results, strong generalization capabilities, and a wide
range of applications. Our project page is available at
https://photo-maker.github.io/