Inserire chiunque nei modelli di diffusione tramite la base Celeb

Abstract

Esiste una forte richiesta per personalizzare i modelli pre-addestrati di testo-immagine di grandi dimensioni, come Stable Diffusion, al fine di generare concetti innovativi, come gli utenti stessi. Tuttavia, il nuovo concetto aggiunto dai precedenti metodi di personalizzazione spesso mostra capacità di combinazione inferiori rispetto a quelli originali, anche quando vengono fornite diverse immagini durante l'addestramento. Proponiamo quindi un nuovo metodo di personalizzazione che consente l'integrazione senza soluzione di continuità di un individuo unico nel modello di diffusione pre-addestrato utilizzando una sola fotografia del viso e solo 1024 parametri apprendibili in meno di 3 minuti. In questo modo, possiamo generare senza sforzo immagini straordinarie di questa persona in qualsiasi posa o posizione, interagendo con chiunque e facendo qualsiasi cosa immaginabile a partire da prompt di testo. Per raggiungere questo obiettivo, analizziamo e costruiamo una base ben definita di celebrità dallo spazio di embedding del grande encoder di testo pre-addestrato. Quindi, data una foto del viso come identità target, generiamo il suo embedding ottimizzando il peso di questa base e bloccando tutti gli altri parametri. Grazie alla base di celebrità proposta, la nuova identità nel nostro modello personalizzato mostra una migliore capacità di combinazione di concetti rispetto ai precedenti metodi di personalizzazione. Inoltre, il nostro modello può anche apprendere diverse nuove identità contemporaneamente e farle interagire tra loro, cosa che il precedente modello di personalizzazione non riesce a fare. Il codice verrà rilasciato.

English

Exquisite demand exists for customizing the pretrained large text-to-image model, e.g., Stable Diffusion, to generate innovative concepts, such as the users themselves. However, the newly-added concept from previous customization methods often shows weaker combination abilities than the original ones even given several images during training. We thus propose a new personalization method that allows for the seamless integration of a unique individual into the pre-trained diffusion model using just one facial photograph and only 1024 learnable parameters under 3 minutes. So as we can effortlessly generate stunning images of this person in any pose or position, interacting with anyone and doing anything imaginable from text prompts. To achieve this, we first analyze and build a well-defined celeb basis from the embedding space of the pre-trained large text encoder. Then, given one facial photo as the target identity, we generate its own embedding by optimizing the weight of this basis and locking all other parameters. Empowered by the proposed celeb basis, the new identity in our customized model showcases a better concept combination ability than previous personalization methods. Besides, our model can also learn several new identities at once and interact with each other where the previous customization model fails to. The code will be released.

Inserire chiunque nei modelli di diffusione tramite la base Celeb

Inserting Anybody in Diffusion Models via Celeb Basis

Abstract

Support