λ-ECLIPSE : Modèles de diffusion texte-image personnalisés multi-concepts en exploitant l'espace latent de CLIP

papers.abstract

Malgré les récents progrès des modèles génératifs de texte-à-image personnalisés (P-T2I), la génération d'images pilotée par un sujet reste un défi. Les principaux goulots d'étranglement incluent 1) les exigences intensives en ressources de formation, 2) la sensibilité aux hyperparamètres entraînant des résultats incohérents, et 3) l'équilibrage des subtilités entre l'alignement des nouveaux concepts visuels et de la composition. Nous commençons par réitérer la philosophie centrale des modèles de diffusion texte-à-image pour aborder ces limitations. Principalement, les approches contemporaines de T2I pilotées par un sujet reposent sur les Modèles de Diffusion Latente (LDMs), qui facilitent la cartographie T2I à travers des couches d'attention croisée. Bien que les LDMs offrent des avantages distincts, la dépendance des méthodes P-T2I sur l'espace latent de ces modèles de diffusion augmente considérablement les demandes en ressources, conduisant à des résultats incohérents et nécessitant de nombreuses itérations pour une seule image souhaitée. Récemment, ECLIPSE a démontré une voie plus efficace en ressources pour l'entraînement de modèles T2I basés sur UnCLIP, contournant le besoin de préalables de diffusion texte-à-image. Sur cette base, nous introduisons lambda-ECLIPSE. Notre méthode montre qu'un P-T2I efficace ne dépend pas nécessairement de l'espace latent des modèles de diffusion. lambda-ECLIPSE réalise la personnalisation T2I pour un seul sujet, plusieurs sujets et guidée par les contours avec seulement 34M de paramètres et est entraîné en seulement 74 heures GPU en utilisant 1,6M de données intercalées image-texte. À travers des expériences approfondies, nous établissons également que lambda-ECLIPSE surpasse les bases de référence existantes en alignement de composition tout en préservant la performance d'alignement de concept, même avec une utilisation de ressources significativement plus faible.

English

Despite the recent advances in personalized text-to-image (P-T2I) generative models, subject-driven T2I remains challenging. The primary bottlenecks include 1) Intensive training resource requirements, 2) Hyper-parameter sensitivity leading to inconsistent outputs, and 3) Balancing the intricacies of novel visual concept and composition alignment. We start by re-iterating the core philosophy of T2I diffusion models to address the above limitations. Predominantly, contemporary subject-driven T2I approaches hinge on Latent Diffusion Models (LDMs), which facilitate T2I mapping through cross-attention layers. While LDMs offer distinct advantages, P-T2I methods' reliance on the latent space of these diffusion models significantly escalates resource demands, leading to inconsistent results and necessitating numerous iterations for a single desired image. Recently, ECLIPSE has demonstrated a more resource-efficient pathway for training UnCLIP-based T2I models, circumventing the need for diffusion text-to-image priors. Building on this, we introduce lambda-ECLIPSE. Our method illustrates that effective P-T2I does not necessarily depend on the latent space of diffusion models. lambda-ECLIPSE achieves single, multi-subject, and edge-guided T2I personalization with just 34M parameters and is trained on a mere 74 GPU hours using 1.6M image-text interleaved data. Through extensive experiments, we also establish that lambda-ECLIPSE surpasses existing baselines in composition alignment while preserving concept alignment performance, even with significantly lower resource utilization.

λ-ECLIPSE : Modèles de diffusion texte-image personnalisés multi-concepts en exploitant l'espace latent de CLIP

λ-ECLIPSE: Multi-Concept Personalized Text-to-Image Diffusion Models by Leveraging CLIP Latent Space

papers.abstract

Support