λ-ECLIPSE: Multi-concept gepersonaliseerde tekst-naar-beeld diffusiemodellen door gebruik te maken van CLIP-latente ruimte
λ-ECLIPSE: Multi-Concept Personalized Text-to-Image Diffusion Models by Leveraging CLIP Latent Space
February 7, 2024
Auteurs: Maitreya Patel, Sangmin Jung, Chitta Baral, Yezhou Yang
cs.AI
Samenvatting
Ondanks de recente vooruitgang in gepersonaliseerde tekst-naar-beeld (P-T2I) generatieve modellen, blijft onderwerpgedreven T2I een uitdaging. De belangrijkste knelpunten zijn: 1) Intensieve trainingsresourcevereisten, 2) Hyperparametergevoeligheid die leidt tot inconsistente resultaten, en 3) Het balanceren van de complexiteit van nieuwe visuele concepten en compositie-uitlijning. We beginnen met het herhalen van de kernfilosofie van T2I diffusiemodellen om de bovenstaande beperkingen aan te pakken. Overwegend zijn hedendaagse onderwerpgedreven T2I-benaderingen gebaseerd op Latent Diffusion Models (LDMs), die T2I-mapping mogelijk maken via cross-attention lagen. Hoewel LDMs duidelijke voordelen bieden, verhoogt de afhankelijkheid van P-T2I-methoden op de latente ruimte van deze diffusiemodellen de resourcebehoeften aanzienlijk, wat leidt tot inconsistente resultaten en talrijke iteraties vereist voor een enkel gewenst beeld. Recentelijk heeft ECLIPSE een resource-efficiëntere weg getoond voor het trainen van UnCLIP-gebaseerde T2I-modellen, waardoor de noodzaak voor diffusie tekst-naar-beeld priors wordt omzeild. Hierop voortbouwend introduceren we lambda-ECLIPSE. Onze methode toont aan dat effectieve P-T2I niet noodzakelijk afhankelijk is van de latente ruimte van diffusiemodellen. lambda-ECLIPSE bereikt enkelvoudige, multi-onderwerp en edge-geleide T2I-personalisatie met slechts 34M parameters en wordt getraind in slechts 74 GPU-uren met behulp van 1,6M beeld-tekst interleaved data. Door uitgebreide experimenten stellen we ook vast dat lambda-ECLIPSE bestaande baseline-methoden overtreft in compositie-uitlijning terwijl het de concept-uitlijning prestaties behoudt, zelfs met aanzienlijk lagere resource-utilisatie.
English
Despite the recent advances in personalized text-to-image (P-T2I) generative
models, subject-driven T2I remains challenging. The primary bottlenecks include
1) Intensive training resource requirements, 2) Hyper-parameter sensitivity
leading to inconsistent outputs, and 3) Balancing the intricacies of novel
visual concept and composition alignment. We start by re-iterating the core
philosophy of T2I diffusion models to address the above limitations.
Predominantly, contemporary subject-driven T2I approaches hinge on Latent
Diffusion Models (LDMs), which facilitate T2I mapping through cross-attention
layers. While LDMs offer distinct advantages, P-T2I methods' reliance on the
latent space of these diffusion models significantly escalates resource
demands, leading to inconsistent results and necessitating numerous iterations
for a single desired image. Recently, ECLIPSE has demonstrated a more
resource-efficient pathway for training UnCLIP-based T2I models, circumventing
the need for diffusion text-to-image priors. Building on this, we introduce
lambda-ECLIPSE. Our method illustrates that effective P-T2I does not
necessarily depend on the latent space of diffusion models. lambda-ECLIPSE
achieves single, multi-subject, and edge-guided T2I personalization with just
34M parameters and is trained on a mere 74 GPU hours using 1.6M image-text
interleaved data. Through extensive experiments, we also establish that
lambda-ECLIPSE surpasses existing baselines in composition alignment while
preserving concept alignment performance, even with significantly lower
resource utilization.