λ-ECLIPSE: Multi-Konzept-personalisierte Text-zu-Bild-Diffusionsmodelle durch Nutzung des CLIP-Latentraums

papers.abstract

Trotz der jüngsten Fortschritte in personalisierten Text-zu-Bild (P-T2I) Generationsmodellen bleibt die subjektgesteuerte T2I-Generierung eine Herausforderung. Die Hauptengpässe umfassen 1) den hohen Bedarf an Trainingsressourcen, 2) die Hyperparameter-Empfindlichkeit, die zu inkonsistenten Ergebnissen führt, und 3) die Balance zwischen den Feinheiten neuartiger visueller Konzepte und der Kompositionsausrichtung. Wir beginnen mit einer Wiederholung der Kernphilosophie von T2I-Diffusionsmodellen, um diese Einschränkungen zu adressieren. Vorherrschend stützen sich zeitgenössische subjektgesteuerte T2I-Ansätze auf Latent Diffusion Models (LDMs), die die T2I-Abbildung durch Cross-Attention-Schichten ermöglichen. Obwohl LDMs deutliche Vorteile bieten, erhöht die Abhängigkeit der P-T2I-Methoden vom latenten Raum dieser Diffusionsmodelle den Ressourcenbedarf erheblich, führt zu inkonsistenten Ergebnissen und erfordert zahlreiche Iterationen für ein einziges gewünschtes Bild. Kürzlich hat ECLIPSE einen ressourceneffizienteren Weg für das Training von UnCLIP-basierten T2I-Modellen aufgezeigt, der den Bedarf an Diffusions-Text-zu-Bild-Priors umgeht. Aufbauend darauf führen wir lambda-ECLIPSE ein. Unsere Methode zeigt, dass effektive P-T2I nicht zwangsläufig vom latenten Raum der Diffusionsmodelle abhängt. lambda-ECLIPSE erreicht die Personalisierung von Einzel-, Mehrfachsubjekt- und kantenorientierten T2I mit nur 34M Parametern und wird in lediglich 74 GPU-Stunden mit 1,6M Bild-Text-verknüpften Daten trainiert. Durch umfangreiche Experimente stellen wir auch fest, dass lambda-ECLIPSE bestehende Baselines in der Kompositionsausrichtung übertrifft, während die Konzeptausrichtungsleistung bei deutlich geringerem Ressourcenverbrauch erhalten bleibt.

English

Despite the recent advances in personalized text-to-image (P-T2I) generative models, subject-driven T2I remains challenging. The primary bottlenecks include 1) Intensive training resource requirements, 2) Hyper-parameter sensitivity leading to inconsistent outputs, and 3) Balancing the intricacies of novel visual concept and composition alignment. We start by re-iterating the core philosophy of T2I diffusion models to address the above limitations. Predominantly, contemporary subject-driven T2I approaches hinge on Latent Diffusion Models (LDMs), which facilitate T2I mapping through cross-attention layers. While LDMs offer distinct advantages, P-T2I methods' reliance on the latent space of these diffusion models significantly escalates resource demands, leading to inconsistent results and necessitating numerous iterations for a single desired image. Recently, ECLIPSE has demonstrated a more resource-efficient pathway for training UnCLIP-based T2I models, circumventing the need for diffusion text-to-image priors. Building on this, we introduce lambda-ECLIPSE. Our method illustrates that effective P-T2I does not necessarily depend on the latent space of diffusion models. lambda-ECLIPSE achieves single, multi-subject, and edge-guided T2I personalization with just 34M parameters and is trained on a mere 74 GPU hours using 1.6M image-text interleaved data. Through extensive experiments, we also establish that lambda-ECLIPSE surpasses existing baselines in composition alignment while preserving concept alignment performance, even with significantly lower resource utilization.

λ-ECLIPSE: Multi-Konzept-personalisierte Text-zu-Bild-Diffusionsmodelle durch Nutzung des CLIP-Latentraums

λ-ECLIPSE: Multi-Concept Personalized Text-to-Image Diffusion Models by Leveraging CLIP Latent Space

papers.abstract

Support