ChatPaper.aiChatPaper

Gepersonaliseerde Residuen voor Conceptgestuurde Tekst-naar-Beeld Generatie

Personalized Residuals for Concept-Driven Text-to-Image Generation

May 21, 2024
Auteurs: Cusuh Ham, Matthew Fisher, James Hays, Nicholas Kolkin, Yuchen Liu, Richard Zhang, Tobias Hinz
cs.AI

Samenvatting

We presenteren gepersonaliseerde residuen en gelokaliseerde aandacht-gestuurde sampling voor efficiënte concept-gestuurde generatie met behulp van tekst-naar-beeld diffusiemodellen. Onze methode representeert eerst concepten door de gewichten van een voorgetraind tekst-geconditioneerd diffusiemodel te bevriezen en laag-rang residuen te leren voor een kleine subset van de lagen van het model. De residu-gebaseerde aanpak maakt vervolgens direct de toepassing mogelijk van onze voorgestelde samplingtechniek, die de geleerde residuen alleen toepast in gebieden waar het concept is gelokaliseerd via kruis-attentie en de originele diffusiegewichten toepast in alle andere regio's. Gelokaliseerde sampling combineert daarom de geleerde identiteit van het concept met het bestaande generatieve prior van het onderliggende diffusiemodel. We tonen aan dat gepersonaliseerde residuen effectief de identiteit van een concept vastleggen in ~3 minuten op een enkele GPU zonder het gebruik van regularisatiebeelden en met minder parameters dan eerdere modellen, en gelokaliseerde sampling maakt het mogelijk om het originele model te gebruiken als een sterk prior voor grote delen van het beeld.
English
We present personalized residuals and localized attention-guided sampling for efficient concept-driven generation using text-to-image diffusion models. Our method first represents concepts by freezing the weights of a pretrained text-conditioned diffusion model and learning low-rank residuals for a small subset of the model's layers. The residual-based approach then directly enables application of our proposed sampling technique, which applies the learned residuals only in areas where the concept is localized via cross-attention and applies the original diffusion weights in all other regions. Localized sampling therefore combines the learned identity of the concept with the existing generative prior of the underlying diffusion model. We show that personalized residuals effectively capture the identity of a concept in ~3 minutes on a single GPU without the use of regularization images and with fewer parameters than previous models, and localized sampling allows using the original model as strong prior for large parts of the image.
PDF122February 8, 2026