ChatPaper.aiChatPaper

PhotoMaker: Настройка реалистичных фотографий людей с помощью многослойного встраивания идентификаторов

PhotoMaker: Customizing Realistic Human Photos via Stacked ID Embedding

December 7, 2023
Авторы: Zhen Li, Mingdeng Cao, Xintao Wang, Zhongang Qi, Ming-Ming Cheng, Ying Shan
cs.AI

Аннотация

Последние достижения в области генерации изображений по текстовым описаниям позволили добиться значительного прогресса в синтезе реалистичных фотографий людей на основе заданных текстовых подсказок. Однако существующие методы персонализированной генерации не могут одновременно удовлетворять требованиям высокой эффективности, надежной сохранности идентичности (ID) и гибкой управляемости текстом. В данной работе мы представляем PhotoMaker — эффективный метод персонализированной генерации изображений по тексту, который в основном кодирует произвольное количество входных изображений ID в стек вложений ID для сохранения информации об идентичности. Такое вложение, выступая в качестве унифицированного представления ID, не только всесторонне охватывает характеристики одного и того же входного ID, но также учитывает характеристики различных ID для последующей интеграции. Это открывает путь для более интересных и практически ценных приложений. Кроме того, для обучения нашего PhotoMaker мы предлагаем конвейер создания данных, ориентированный на ID, для сборки обучающих данных. Благодаря набору данных, созданному с использованием предложенного конвейера, наш PhotoMaker демонстрирует лучшую способность сохранения ID по сравнению с методами, основанными на тонкой настройке во время тестирования, а также обеспечивает значительное ускорение, высококачественные результаты генерации, сильные обобщающие способности и широкий спектр применений. Наша страница проекта доступна по адресу https://photo-maker.github.io/.
English
Recent advances in text-to-image generation have made remarkable progress in synthesizing realistic human photos conditioned on given text prompts. However, existing personalized generation methods cannot simultaneously satisfy the requirements of high efficiency, promising identity (ID) fidelity, and flexible text controllability. In this work, we introduce PhotoMaker, an efficient personalized text-to-image generation method, which mainly encodes an arbitrary number of input ID images into a stack ID embedding for preserving ID information. Such an embedding, serving as a unified ID representation, can not only encapsulate the characteristics of the same input ID comprehensively, but also accommodate the characteristics of different IDs for subsequent integration. This paves the way for more intriguing and practically valuable applications. Besides, to drive the training of our PhotoMaker, we propose an ID-oriented data construction pipeline to assemble the training data. Under the nourishment of the dataset constructed through the proposed pipeline, our PhotoMaker demonstrates better ID preservation ability than test-time fine-tuning based methods, yet provides significant speed improvements, high-quality generation results, strong generalization capabilities, and a wide range of applications. Our project page is available at https://photo-maker.github.io/
PDF6216December 15, 2024