λ-ECLIPSE : Modèles de diffusion texte-image personnalisés multi-concepts en exploitant l'espace latent de CLIP
λ-ECLIPSE: Multi-Concept Personalized Text-to-Image Diffusion Models by Leveraging CLIP Latent Space
February 7, 2024
Auteurs: Maitreya Patel, Sangmin Jung, Chitta Baral, Yezhou Yang
cs.AI
Résumé
Malgré les récents progrès des modèles génératifs de texte-à-image personnalisés (P-T2I), la génération d'images pilotée par un sujet reste un défi. Les principaux goulots d'étranglement incluent 1) les exigences intensives en ressources de formation, 2) la sensibilité aux hyperparamètres entraînant des résultats incohérents, et 3) l'équilibrage des subtilités entre l'alignement des nouveaux concepts visuels et de la composition. Nous commençons par réitérer la philosophie centrale des modèles de diffusion texte-à-image pour aborder ces limitations. Principalement, les approches contemporaines de T2I pilotées par un sujet reposent sur les Modèles de Diffusion Latente (LDMs), qui facilitent la cartographie T2I à travers des couches d'attention croisée. Bien que les LDMs offrent des avantages distincts, la dépendance des méthodes P-T2I sur l'espace latent de ces modèles de diffusion augmente considérablement les demandes en ressources, conduisant à des résultats incohérents et nécessitant de nombreuses itérations pour une seule image souhaitée. Récemment, ECLIPSE a démontré une voie plus efficace en ressources pour l'entraînement de modèles T2I basés sur UnCLIP, contournant le besoin de préalables de diffusion texte-à-image. Sur cette base, nous introduisons lambda-ECLIPSE. Notre méthode montre qu'un P-T2I efficace ne dépend pas nécessairement de l'espace latent des modèles de diffusion. lambda-ECLIPSE réalise la personnalisation T2I pour un seul sujet, plusieurs sujets et guidée par les contours avec seulement 34M de paramètres et est entraîné en seulement 74 heures GPU en utilisant 1,6M de données intercalées image-texte. À travers des expériences approfondies, nous établissons également que lambda-ECLIPSE surpasse les bases de référence existantes en alignement de composition tout en préservant la performance d'alignement de concept, même avec une utilisation de ressources significativement plus faible.
English
Despite the recent advances in personalized text-to-image (P-T2I) generative
models, subject-driven T2I remains challenging. The primary bottlenecks include
1) Intensive training resource requirements, 2) Hyper-parameter sensitivity
leading to inconsistent outputs, and 3) Balancing the intricacies of novel
visual concept and composition alignment. We start by re-iterating the core
philosophy of T2I diffusion models to address the above limitations.
Predominantly, contemporary subject-driven T2I approaches hinge on Latent
Diffusion Models (LDMs), which facilitate T2I mapping through cross-attention
layers. While LDMs offer distinct advantages, P-T2I methods' reliance on the
latent space of these diffusion models significantly escalates resource
demands, leading to inconsistent results and necessitating numerous iterations
for a single desired image. Recently, ECLIPSE has demonstrated a more
resource-efficient pathway for training UnCLIP-based T2I models, circumventing
the need for diffusion text-to-image priors. Building on this, we introduce
lambda-ECLIPSE. Our method illustrates that effective P-T2I does not
necessarily depend on the latent space of diffusion models. lambda-ECLIPSE
achieves single, multi-subject, and edge-guided T2I personalization with just
34M parameters and is trained on a mere 74 GPU hours using 1.6M image-text
interleaved data. Through extensive experiments, we also establish that
lambda-ECLIPSE surpasses existing baselines in composition alignment while
preserving concept alignment performance, even with significantly lower
resource utilization.