ChatPaper.aiChatPaper

PhotoMaker: 스택형 ID 임베딩을 통한 사실적 인간 사진 커스터마이징

PhotoMaker: Customizing Realistic Human Photos via Stacked ID Embedding

December 7, 2023
저자: Zhen Li, Mingdeng Cao, Xintao Wang, Zhongang Qi, Ming-Ming Cheng, Ying Shan
cs.AI

초록

최근 텍스트-이미지 생성 분야에서 주어진 텍스트 프롬프트를 기반으로 현실적인 인간 사진을 합성하는 데 있어 놀라운 진전이 이루어졌습니다. 그러나 기존의 개인화된 생성 방법들은 높은 효율성, 우수한 신원(ID) 충실도, 그리고 유연한 텍스트 제어 가능성이라는 요구사항을 동시에 충족시키지 못하고 있습니다. 본 연구에서는 이러한 문제를 해결하기 위해 PhotoMaker를 소개합니다. 이는 주어진 여러 ID 이미지를 스택 ID 임베딩으로 인코딩하여 ID 정보를 보존하는 효율적인 개인화 텍스트-이미지 생성 방법입니다. 이러한 임베딩은 통합된 ID 표현으로서, 동일한 입력 ID의 특성을 포괄적으로 담아낼 뿐만 아니라, 다른 ID들의 특성도 수용하여 후속 통합을 가능하게 합니다. 이는 더 흥미롭고 실질적으로 가치 있는 응용 프로그램을 위한 길을 열어줍니다. 또한, 우리의 PhotoMaker의 학습을 촉진하기 위해, ID 지향 데이터 구성 파이프라인을 제안하여 학습 데이터를 조립합니다. 제안된 파이프라인을 통해 구성된 데이터셋의 지원 하에, 우리의 PhotoMaker는 테스트 시간 미세 조정 기반 방법들보다 더 나은 ID 보존 능력을 보여주며, 동시에 상당한 속도 개선, 고품질 생성 결과, 강력한 일반화 능력, 그리고 다양한 응용 범위를 제공합니다. 우리의 프로젝트 페이지는 https://photo-maker.github.io/에서 확인할 수 있습니다.
English
Recent advances in text-to-image generation have made remarkable progress in synthesizing realistic human photos conditioned on given text prompts. However, existing personalized generation methods cannot simultaneously satisfy the requirements of high efficiency, promising identity (ID) fidelity, and flexible text controllability. In this work, we introduce PhotoMaker, an efficient personalized text-to-image generation method, which mainly encodes an arbitrary number of input ID images into a stack ID embedding for preserving ID information. Such an embedding, serving as a unified ID representation, can not only encapsulate the characteristics of the same input ID comprehensively, but also accommodate the characteristics of different IDs for subsequent integration. This paves the way for more intriguing and practically valuable applications. Besides, to drive the training of our PhotoMaker, we propose an ID-oriented data construction pipeline to assemble the training data. Under the nourishment of the dataset constructed through the proposed pipeline, our PhotoMaker demonstrates better ID preservation ability than test-time fine-tuning based methods, yet provides significant speed improvements, high-quality generation results, strong generalization capabilities, and a wide range of applications. Our project page is available at https://photo-maker.github.io/
PDF6216December 15, 2024