Gepersonaliseerde Residuen voor Conceptgestuurde Tekst-naar-Beeld Generatie
Personalized Residuals for Concept-Driven Text-to-Image Generation
May 21, 2024
Auteurs: Cusuh Ham, Matthew Fisher, James Hays, Nicholas Kolkin, Yuchen Liu, Richard Zhang, Tobias Hinz
cs.AI
Samenvatting
We presenteren gepersonaliseerde residuen en gelokaliseerde aandacht-gestuurde sampling voor efficiënte concept-gestuurde generatie met behulp van tekst-naar-beeld diffusiemodellen. Onze methode representeert eerst concepten door de gewichten van een voorgetraind tekst-geconditioneerd diffusiemodel te bevriezen en laag-rang residuen te leren voor een kleine subset van de lagen van het model. De residu-gebaseerde aanpak maakt vervolgens direct de toepassing mogelijk van onze voorgestelde samplingtechniek, die de geleerde residuen alleen toepast in gebieden waar het concept is gelokaliseerd via kruis-attentie en de originele diffusiegewichten toepast in alle andere regio's. Gelokaliseerde sampling combineert daarom de geleerde identiteit van het concept met het bestaande generatieve prior van het onderliggende diffusiemodel. We tonen aan dat gepersonaliseerde residuen effectief de identiteit van een concept vastleggen in ~3 minuten op een enkele GPU zonder het gebruik van regularisatiebeelden en met minder parameters dan eerdere modellen, en gelokaliseerde sampling maakt het mogelijk om het originele model te gebruiken als een sterk prior voor grote delen van het beeld.
English
We present personalized residuals and localized attention-guided sampling for
efficient concept-driven generation using text-to-image diffusion models. Our
method first represents concepts by freezing the weights of a pretrained
text-conditioned diffusion model and learning low-rank residuals for a small
subset of the model's layers. The residual-based approach then directly enables
application of our proposed sampling technique, which applies the learned
residuals only in areas where the concept is localized via cross-attention and
applies the original diffusion weights in all other regions. Localized sampling
therefore combines the learned identity of the concept with the existing
generative prior of the underlying diffusion model. We show that personalized
residuals effectively capture the identity of a concept in ~3 minutes on a
single GPU without the use of regularization images and with fewer parameters
than previous models, and localized sampling allows using the original model as
strong prior for large parts of the image.