Einführung von beliebigen Personen in Diffusionsmodelle über eine Celeb-Basis
Inserting Anybody in Diffusion Models via Celeb Basis
June 1, 2023
Autoren: Ge Yuan, Xiaodong Cun, Yong Zhang, Maomao Li, Chenyang Qi, Xintao Wang, Ying Shan, Huicheng Zheng
cs.AI
Zusammenfassung
Es besteht ein ausgeprägter Bedarf, vortrainierte große Text-zu-Bild-Modelle, wie z. B. Stable Diffusion, anzupassen, um innovative Konzepte zu generieren, wie beispielsweise die Benutzer selbst. Allerdings zeigt das neu hinzugefügte Konzept aus früheren Anpassungsmethoden oft schwächere Kombinationsfähigkeiten als die ursprünglichen, selbst wenn mehrere Bilder während des Trainings verwendet werden. Daher schlagen wir eine neue Personalisierungsmethode vor, die die nahtlose Integration einer einzigartigen Person in das vortrainierte Diffusionsmodell ermöglicht, indem lediglich ein Gesichtsfoto und nur 1024 trainierbare Parameter in weniger als 3 Minuten verwendet werden. So können wir mühelos beeindruckende Bilder dieser Person in jeder Pose oder Position generieren, die mit jedem interagiert und alles Vorstellbare aus Textaufforderungen tut. Um dies zu erreichen, analysieren und erstellen wir zunächst eine gut definierte Prominentenbasis aus dem Einbettungsraum des vortrainierten großen Textkodierers. Dann generieren wir, ausgehend von einem Gesichtsfoto als Zielidentität, dessen eigene Einbettung, indem wir das Gewicht dieser Basis optimieren und alle anderen Parameter sperren. Durch die vorgeschlagene Prominentenbasis zeigt die neue Identität in unserem angepassten Modell eine bessere Konzeptkombinationsfähigkeit als frühere Personalisierungsmethoden. Darüber hinaus kann unser Modell auch mehrere neue Identitäten gleichzeitig lernen und miteinander interagieren, was bei früheren Anpassungsmodellen nicht möglich war. Der Code wird veröffentlicht.
English
Exquisite demand exists for customizing the pretrained large text-to-image
model, e.g., Stable Diffusion, to generate innovative concepts, such
as the users themselves. However, the newly-added concept from previous
customization methods often shows weaker combination abilities than the
original ones even given several images during training. We thus propose a new
personalization method that allows for the seamless integration of a unique
individual into the pre-trained diffusion model using just one facial
photograph and only 1024 learnable parameters under 3
minutes. So as we can effortlessly generate stunning images of this person in
any pose or position, interacting with anyone and doing anything imaginable
from text prompts. To achieve this, we first analyze and build a well-defined
celeb basis from the embedding space of the pre-trained large text encoder.
Then, given one facial photo as the target identity, we generate its own
embedding by optimizing the weight of this basis and locking all other
parameters. Empowered by the proposed celeb basis, the new identity in our
customized model showcases a better concept combination ability than previous
personalization methods. Besides, our model can also learn several new
identities at once and interact with each other where the previous
customization model fails to. The code will be released.