FastComposer: Afstelvrije Multi-Subject Afbeeldingsgeneratie met Gelokaliseerde Aandacht
FastComposer: Tuning-Free Multi-Subject Image Generation with Localized Attention
May 17, 2023
Auteurs: Guangxuan Xiao, Tianwei Yin, William T. Freeman, Frédo Durand, Song Han
cs.AI
Samenvatting
Diffusiemodellen blinken uit in tekst-naar-beeldgeneratie, met name in onderwerpgedreven generatie voor gepersonaliseerde afbeeldingen. Bestaande methoden zijn echter inefficiënt vanwege de onderwerpspecifieke fine-tuning, wat rekenintensief is en een efficiënte implementatie belemmert. Bovendien worstelen bestaande methoden met multi-onderwerpgeneratie, omdat ze vaak kenmerken tussen onderwerpen mengen. Wij presenteren FastComposer, dat efficiënte, gepersonaliseerde, multi-onderwerp tekst-naar-beeldgeneratie mogelijk maakt zonder fine-tuning. FastComposer gebruikt onderwerp-embeddings die zijn geëxtraheerd door een beeldencoder om de generieke tekstconditionering in diffusiemodellen aan te vullen, waardoor gepersonaliseerde beeldgeneratie mogelijk wordt op basis van onderwerpafbeeldingen en tekstuele instructies met alleen forward passes. Om het probleem van identiteitsvermenging in multi-onderwerpgeneratie aan te pakken, stelt FastComposer cross-attention localisatiesupervisie voor tijdens de training, waardoor de aandacht van referentieonderwerpen wordt afgedwongen om zich te richten op de juiste regio's in de doelafbeeldingen. Naïef conditioneren op onderwerp-embeddings resulteert in onderwerpoverfitting. FastComposer stelt vertraagde onderwerpconditionering voor in de denoising-stap om zowel identiteit als bewerkbaarheid te behouden in onderwerpgedreven beeldgeneratie. FastComposer genereert afbeeldingen van meerdere onbekende individuen met verschillende stijlen, acties en contexten. Het bereikt een snelheidsverbetering van 300 tot 2500 keer vergeleken met fine-tuning-gebaseerde methoden en vereist geen extra opslag voor nieuwe onderwerpen. FastComposer baant de weg voor efficiënte, gepersonaliseerde en hoogwaardige multi-onderwerpbeeldcreatie. Code, model en dataset zijn beschikbaar op https://github.com/mit-han-lab/fastcomposer.
English
Diffusion models excel at text-to-image generation, especially in
subject-driven generation for personalized images. However, existing methods
are inefficient due to the subject-specific fine-tuning, which is
computationally intensive and hampers efficient deployment. Moreover, existing
methods struggle with multi-subject generation as they often blend features
among subjects. We present FastComposer which enables efficient, personalized,
multi-subject text-to-image generation without fine-tuning. FastComposer uses
subject embeddings extracted by an image encoder to augment the generic text
conditioning in diffusion models, enabling personalized image generation based
on subject images and textual instructions with only forward passes. To address
the identity blending problem in the multi-subject generation, FastComposer
proposes cross-attention localization supervision during training, enforcing
the attention of reference subjects localized to the correct regions in the
target images. Naively conditioning on subject embeddings results in subject
overfitting. FastComposer proposes delayed subject conditioning in the
denoising step to maintain both identity and editability in subject-driven
image generation. FastComposer generates images of multiple unseen individuals
with different styles, actions, and contexts. It achieves
300times-2500times speedup compared to fine-tuning-based methods and
requires zero extra storage for new subjects. FastComposer paves the way for
efficient, personalized, and high-quality multi-subject image creation. Code,
model, and dataset are available at
https://github.com/mit-han-lab/fastcomposer.