λ-ECLIPSE: Multi-concept gepersonaliseerde tekst-naar-beeld diffusiemodellen door gebruik te maken van CLIP-latente ruimte

Samenvatting

Ondanks de recente vooruitgang in gepersonaliseerde tekst-naar-beeld (P-T2I) generatieve modellen, blijft onderwerpgedreven T2I een uitdaging. De belangrijkste knelpunten zijn: 1) Intensieve trainingsresourcevereisten, 2) Hyperparametergevoeligheid die leidt tot inconsistente resultaten, en 3) Het balanceren van de complexiteit van nieuwe visuele concepten en compositie-uitlijning. We beginnen met het herhalen van de kernfilosofie van T2I diffusiemodellen om de bovenstaande beperkingen aan te pakken. Overwegend zijn hedendaagse onderwerpgedreven T2I-benaderingen gebaseerd op Latent Diffusion Models (LDMs), die T2I-mapping mogelijk maken via cross-attention lagen. Hoewel LDMs duidelijke voordelen bieden, verhoogt de afhankelijkheid van P-T2I-methoden op de latente ruimte van deze diffusiemodellen de resourcebehoeften aanzienlijk, wat leidt tot inconsistente resultaten en talrijke iteraties vereist voor een enkel gewenst beeld. Recentelijk heeft ECLIPSE een resource-efficiëntere weg getoond voor het trainen van UnCLIP-gebaseerde T2I-modellen, waardoor de noodzaak voor diffusie tekst-naar-beeld priors wordt omzeild. Hierop voortbouwend introduceren we lambda-ECLIPSE. Onze methode toont aan dat effectieve P-T2I niet noodzakelijk afhankelijk is van de latente ruimte van diffusiemodellen. lambda-ECLIPSE bereikt enkelvoudige, multi-onderwerp en edge-geleide T2I-personalisatie met slechts 34M parameters en wordt getraind in slechts 74 GPU-uren met behulp van 1,6M beeld-tekst interleaved data. Door uitgebreide experimenten stellen we ook vast dat lambda-ECLIPSE bestaande baseline-methoden overtreft in compositie-uitlijning terwijl het de concept-uitlijning prestaties behoudt, zelfs met aanzienlijk lagere resource-utilisatie.

English

Despite the recent advances in personalized text-to-image (P-T2I) generative models, subject-driven T2I remains challenging. The primary bottlenecks include 1) Intensive training resource requirements, 2) Hyper-parameter sensitivity leading to inconsistent outputs, and 3) Balancing the intricacies of novel visual concept and composition alignment. We start by re-iterating the core philosophy of T2I diffusion models to address the above limitations. Predominantly, contemporary subject-driven T2I approaches hinge on Latent Diffusion Models (LDMs), which facilitate T2I mapping through cross-attention layers. While LDMs offer distinct advantages, P-T2I methods' reliance on the latent space of these diffusion models significantly escalates resource demands, leading to inconsistent results and necessitating numerous iterations for a single desired image. Recently, ECLIPSE has demonstrated a more resource-efficient pathway for training UnCLIP-based T2I models, circumventing the need for diffusion text-to-image priors. Building on this, we introduce lambda-ECLIPSE. Our method illustrates that effective P-T2I does not necessarily depend on the latent space of diffusion models. lambda-ECLIPSE achieves single, multi-subject, and edge-guided T2I personalization with just 34M parameters and is trained on a mere 74 GPU hours using 1.6M image-text interleaved data. Through extensive experiments, we also establish that lambda-ECLIPSE surpasses existing baselines in composition alignment while preserving concept alignment performance, even with significantly lower resource utilization.

λ-ECLIPSE: Multi-concept gepersonaliseerde tekst-naar-beeld diffusiemodellen door gebruik te maken van CLIP-latente ruimte

λ-ECLIPSE: Multi-Concept Personalized Text-to-Image Diffusion Models by Leveraging CLIP Latent Space

Samenvatting

Support