ChatPaper.aiChatPaper

Einführung von beliebigen Personen in Diffusionsmodelle über eine Celeb-Basis

Inserting Anybody in Diffusion Models via Celeb Basis

June 1, 2023
Autoren: Ge Yuan, Xiaodong Cun, Yong Zhang, Maomao Li, Chenyang Qi, Xintao Wang, Ying Shan, Huicheng Zheng
cs.AI

Zusammenfassung

Es besteht ein ausgeprägter Bedarf, vortrainierte große Text-zu-Bild-Modelle, wie z. B. Stable Diffusion, anzupassen, um innovative Konzepte zu generieren, wie beispielsweise die Benutzer selbst. Allerdings zeigt das neu hinzugefügte Konzept aus früheren Anpassungsmethoden oft schwächere Kombinationsfähigkeiten als die ursprünglichen, selbst wenn mehrere Bilder während des Trainings verwendet werden. Daher schlagen wir eine neue Personalisierungsmethode vor, die die nahtlose Integration einer einzigartigen Person in das vortrainierte Diffusionsmodell ermöglicht, indem lediglich ein Gesichtsfoto und nur 1024 trainierbare Parameter in weniger als 3 Minuten verwendet werden. So können wir mühelos beeindruckende Bilder dieser Person in jeder Pose oder Position generieren, die mit jedem interagiert und alles Vorstellbare aus Textaufforderungen tut. Um dies zu erreichen, analysieren und erstellen wir zunächst eine gut definierte Prominentenbasis aus dem Einbettungsraum des vortrainierten großen Textkodierers. Dann generieren wir, ausgehend von einem Gesichtsfoto als Zielidentität, dessen eigene Einbettung, indem wir das Gewicht dieser Basis optimieren und alle anderen Parameter sperren. Durch die vorgeschlagene Prominentenbasis zeigt die neue Identität in unserem angepassten Modell eine bessere Konzeptkombinationsfähigkeit als frühere Personalisierungsmethoden. Darüber hinaus kann unser Modell auch mehrere neue Identitäten gleichzeitig lernen und miteinander interagieren, was bei früheren Anpassungsmodellen nicht möglich war. Der Code wird veröffentlicht.
English
Exquisite demand exists for customizing the pretrained large text-to-image model, e.g., Stable Diffusion, to generate innovative concepts, such as the users themselves. However, the newly-added concept from previous customization methods often shows weaker combination abilities than the original ones even given several images during training. We thus propose a new personalization method that allows for the seamless integration of a unique individual into the pre-trained diffusion model using just one facial photograph and only 1024 learnable parameters under 3 minutes. So as we can effortlessly generate stunning images of this person in any pose or position, interacting with anyone and doing anything imaginable from text prompts. To achieve this, we first analyze and build a well-defined celeb basis from the embedding space of the pre-trained large text encoder. Then, given one facial photo as the target identity, we generate its own embedding by optimizing the weight of this basis and locking all other parameters. Empowered by the proposed celeb basis, the new identity in our customized model showcases a better concept combination ability than previous personalization methods. Besides, our model can also learn several new identities at once and interact with each other where the previous customization model fails to. The code will be released.
PDF33December 15, 2024