λ-ECLIPSE: Multi-Konzept-personalisierte Text-zu-Bild-Diffusionsmodelle durch Nutzung des CLIP-Latentraums
λ-ECLIPSE: Multi-Concept Personalized Text-to-Image Diffusion Models by Leveraging CLIP Latent Space
February 7, 2024
Autoren: Maitreya Patel, Sangmin Jung, Chitta Baral, Yezhou Yang
cs.AI
Zusammenfassung
Trotz der jüngsten Fortschritte in personalisierten Text-zu-Bild (P-T2I) Generationsmodellen bleibt die subjektgesteuerte T2I-Generierung eine Herausforderung. Die Hauptengpässe umfassen 1) den hohen Bedarf an Trainingsressourcen, 2) die Hyperparameter-Empfindlichkeit, die zu inkonsistenten Ergebnissen führt, und 3) die Balance zwischen den Feinheiten neuartiger visueller Konzepte und der Kompositionsausrichtung. Wir beginnen mit einer Wiederholung der Kernphilosophie von T2I-Diffusionsmodellen, um diese Einschränkungen zu adressieren. Vorherrschend stützen sich zeitgenössische subjektgesteuerte T2I-Ansätze auf Latent Diffusion Models (LDMs), die die T2I-Abbildung durch Cross-Attention-Schichten ermöglichen. Obwohl LDMs deutliche Vorteile bieten, erhöht die Abhängigkeit der P-T2I-Methoden vom latenten Raum dieser Diffusionsmodelle den Ressourcenbedarf erheblich, führt zu inkonsistenten Ergebnissen und erfordert zahlreiche Iterationen für ein einziges gewünschtes Bild. Kürzlich hat ECLIPSE einen ressourceneffizienteren Weg für das Training von UnCLIP-basierten T2I-Modellen aufgezeigt, der den Bedarf an Diffusions-Text-zu-Bild-Priors umgeht. Aufbauend darauf führen wir lambda-ECLIPSE ein. Unsere Methode zeigt, dass effektive P-T2I nicht zwangsläufig vom latenten Raum der Diffusionsmodelle abhängt. lambda-ECLIPSE erreicht die Personalisierung von Einzel-, Mehrfachsubjekt- und kantenorientierten T2I mit nur 34M Parametern und wird in lediglich 74 GPU-Stunden mit 1,6M Bild-Text-verknüpften Daten trainiert. Durch umfangreiche Experimente stellen wir auch fest, dass lambda-ECLIPSE bestehende Baselines in der Kompositionsausrichtung übertrifft, während die Konzeptausrichtungsleistung bei deutlich geringerem Ressourcenverbrauch erhalten bleibt.
English
Despite the recent advances in personalized text-to-image (P-T2I) generative
models, subject-driven T2I remains challenging. The primary bottlenecks include
1) Intensive training resource requirements, 2) Hyper-parameter sensitivity
leading to inconsistent outputs, and 3) Balancing the intricacies of novel
visual concept and composition alignment. We start by re-iterating the core
philosophy of T2I diffusion models to address the above limitations.
Predominantly, contemporary subject-driven T2I approaches hinge on Latent
Diffusion Models (LDMs), which facilitate T2I mapping through cross-attention
layers. While LDMs offer distinct advantages, P-T2I methods' reliance on the
latent space of these diffusion models significantly escalates resource
demands, leading to inconsistent results and necessitating numerous iterations
for a single desired image. Recently, ECLIPSE has demonstrated a more
resource-efficient pathway for training UnCLIP-based T2I models, circumventing
the need for diffusion text-to-image priors. Building on this, we introduce
lambda-ECLIPSE. Our method illustrates that effective P-T2I does not
necessarily depend on the latent space of diffusion models. lambda-ECLIPSE
achieves single, multi-subject, and edge-guided T2I personalization with just
34M parameters and is trained on a mere 74 GPU hours using 1.6M image-text
interleaved data. Through extensive experiments, we also establish that
lambda-ECLIPSE surpasses existing baselines in composition alignment while
preserving concept alignment performance, even with significantly lower
resource utilization.