Iedereen invoegen in diffusiemodellen via de Celeb Basis

Samenvatting

Er bestaat een grote vraag naar het aanpassen van vooraf getrainde grote tekst-naar-beeldmodellen, zoals Stable Diffusion, om innovatieve concepten te genereren, zoals de gebruikers zelf. Echter, het nieuw toegevoegde concept van eerdere aanpassingsmethoden vertoont vaak zwakkere combinatiemogelijkheden dan de originele, zelfs wanneer er tijdens de training meerdere afbeeldingen worden gebruikt. Daarom stellen we een nieuwe personalisatiemethode voor die een naadloze integratie van een uniek individu in het vooraf getrainde diffusiemodel mogelijk maakt met slechts één gezichtsfoto en slechts 1024 leerbare parameters in minder dan 3 minuten. Hierdoor kunnen we moeiteloos indrukwekkende afbeeldingen van deze persoon genereren in elke houding of positie, interagerend met wie dan ook en alles doen wat voorstelbaar is op basis van tekstprompts. Om dit te bereiken, analyseren en construeren we eerst een goed gedefinieerde beroemdhedenbasis vanuit de inbeddingsruimte van de vooraf getrainde grote tekstencoder. Vervolgens genereren we, gegeven één gezichtsfoto als de doelidentiteit, de eigen inbedding door het gewicht van deze basis te optimaliseren en alle andere parameters vast te zetten. Dankzij de voorgestelde beroemdhedenbasis toont de nieuwe identiteit in ons aangepaste model een betere conceptcombinatiecapaciteit dan eerdere personalisatiemethoden. Bovendien kan ons model ook meerdere nieuwe identiteiten tegelijkertijd leren en met elkaar laten interacteren, wat bij eerdere aanpassingsmodellen niet mogelijk was. De code zal worden vrijgegeven.

English

Exquisite demand exists for customizing the pretrained large text-to-image model, e.g., Stable Diffusion, to generate innovative concepts, such as the users themselves. However, the newly-added concept from previous customization methods often shows weaker combination abilities than the original ones even given several images during training. We thus propose a new personalization method that allows for the seamless integration of a unique individual into the pre-trained diffusion model using just one facial photograph and only 1024 learnable parameters under 3 minutes. So as we can effortlessly generate stunning images of this person in any pose or position, interacting with anyone and doing anything imaginable from text prompts. To achieve this, we first analyze and build a well-defined celeb basis from the embedding space of the pre-trained large text encoder. Then, given one facial photo as the target identity, we generate its own embedding by optimizing the weight of this basis and locking all other parameters. Empowered by the proposed celeb basis, the new identity in our customized model showcases a better concept combination ability than previous personalization methods. Besides, our model can also learn several new identities at once and interact with each other where the previous customization model fails to. The code will be released.

Iedereen invoegen in diffusiemodellen via de Celeb Basis

Inserting Anybody in Diffusion Models via Celeb Basis

Samenvatting

Support