PhotoMaker: Personalización de Fotos Humanas Realistas mediante Incrustación de Identidades Apiladas
PhotoMaker: Customizing Realistic Human Photos via Stacked ID Embedding
December 7, 2023
Autores: Zhen Li, Mingdeng Cao, Xintao Wang, Zhongang Qi, Ming-Ming Cheng, Ying Shan
cs.AI
Resumen
Los recientes avances en la generación de texto a imagen han logrado un progreso notable en la síntesis de fotografías humanas realistas condicionadas por indicaciones de texto dadas. Sin embargo, los métodos existentes de generación personalizada no pueden satisfacer simultáneamente los requisitos de alta eficiencia, fidelidad prometedora de identidad (ID) y controlabilidad flexible del texto. En este trabajo, presentamos PhotoMaker, un método eficiente de generación de texto a imagen personalizado, que principalmente codifica un número arbitrario de imágenes de ID de entrada en una incrustación de ID en pila para preservar la información de ID. Dicha incrustación, que sirve como una representación unificada de ID, no solo puede encapsular de manera integral las características de la misma ID de entrada, sino también acomodar las características de diferentes IDs para su posterior integración. Esto allana el camino para aplicaciones más intrigantes y de valor práctico. Además, para impulsar el entrenamiento de nuestro PhotoMaker, proponemos una canalización de construcción de datos orientada a ID para ensamblar los datos de entrenamiento. Bajo el sustento del conjunto de datos construido a través de la canalización propuesta, nuestro PhotoMaker demuestra una mejor capacidad de preservación de ID que los métodos basados en ajuste fino en tiempo de prueba, además de ofrecer mejoras significativas en velocidad, resultados de generación de alta calidad, fuertes capacidades de generalización y una amplia gama de aplicaciones. Nuestra página del proyecto está disponible en https://photo-maker.github.io/.
English
Recent advances in text-to-image generation have made remarkable progress in
synthesizing realistic human photos conditioned on given text prompts. However,
existing personalized generation methods cannot simultaneously satisfy the
requirements of high efficiency, promising identity (ID) fidelity, and flexible
text controllability. In this work, we introduce PhotoMaker, an efficient
personalized text-to-image generation method, which mainly encodes an arbitrary
number of input ID images into a stack ID embedding for preserving ID
information. Such an embedding, serving as a unified ID representation, can not
only encapsulate the characteristics of the same input ID comprehensively, but
also accommodate the characteristics of different IDs for subsequent
integration. This paves the way for more intriguing and practically valuable
applications. Besides, to drive the training of our PhotoMaker, we propose an
ID-oriented data construction pipeline to assemble the training data. Under the
nourishment of the dataset constructed through the proposed pipeline, our
PhotoMaker demonstrates better ID preservation ability than test-time
fine-tuning based methods, yet provides significant speed improvements,
high-quality generation results, strong generalization capabilities, and a wide
range of applications. Our project page is available at
https://photo-maker.github.io/