ChatPaper.aiChatPaper

셀럽 기반을 통한 확산 모델에 누구나 삽입하기

Inserting Anybody in Diffusion Models via Celeb Basis

June 1, 2023
저자: Ge Yuan, Xiaodong Cun, Yong Zhang, Maomao Li, Chenyang Qi, Xintao Wang, Ying Shan, Huicheng Zheng
cs.AI

초록

사전 학습된 대형 텍스트-이미지 모델(예: Stable Diffusion)을 사용자 자신과 같은 혁신적인 개념을 생성하도록 맞춤화하려는 수요가 높습니다. 그러나 기존 맞춤화 방법에서 추가된 새로운 개념은 훈련 중 여러 이미지가 제공되더라도 원래 개념보다 결합 능력이 약한 경우가 많습니다. 따라서 우리는 단 한 장의 얼굴 사진과 1024개의 학습 가능한 매개변수만을 사용하여 3분 이내에 사전 학습된 확산 모델에 독특한 개인을 원활하게 통합할 수 있는 새로운 개인화 방법을 제안합니다. 이를 통해 우리는 이 사람이 어떤 자세나 위치에서든, 누구와 상호작용하며 상상할 수 있는 어떤 일을 하고 있는 놀라운 이미지를 텍스트 프롬프트로부터 쉽게 생성할 수 있습니다. 이를 달성하기 위해, 우리는 먼저 사전 학습된 대형 텍스트 인코더의 임베딩 공간에서 잘 정의된 유명인 기반을 분석하고 구축합니다. 그런 다음, 한 장의 얼굴 사진을 대상 신원으로 주어졌을 때, 이 기반의 가중치를 최적화하고 다른 모든 매개변수를 고정함으로써 그 자체의 임베딩을 생성합니다. 제안된 유명인 기반의 힘을 받아, 우리의 맞춤화 모델에서의 새로운 신원은 이전 개인화 방법보다 더 나은 개념 결합 능력을 보여줍니다. 또한, 우리의 모델은 여러 새로운 신원을 동시에 학습하고 서로 상호작용할 수 있으며, 이는 이전 맞춤화 모델에서는 불가능했던 것입니다. 코드는 공개될 예정입니다.
English
Exquisite demand exists for customizing the pretrained large text-to-image model, e.g., Stable Diffusion, to generate innovative concepts, such as the users themselves. However, the newly-added concept from previous customization methods often shows weaker combination abilities than the original ones even given several images during training. We thus propose a new personalization method that allows for the seamless integration of a unique individual into the pre-trained diffusion model using just one facial photograph and only 1024 learnable parameters under 3 minutes. So as we can effortlessly generate stunning images of this person in any pose or position, interacting with anyone and doing anything imaginable from text prompts. To achieve this, we first analyze and build a well-defined celeb basis from the embedding space of the pre-trained large text encoder. Then, given one facial photo as the target identity, we generate its own embedding by optimizing the weight of this basis and locking all other parameters. Empowered by the proposed celeb basis, the new identity in our customized model showcases a better concept combination ability than previous personalization methods. Besides, our model can also learn several new identities at once and interact with each other where the previous customization model fails to. The code will be released.
PDF33December 15, 2024