λ-ECLIPSE: Modelli di Diffusione Testo-Immagine Personalizzati Multi-Concetto Sfruttando lo Spazio Latente di CLIP

Abstract

Nonostante i recenti progressi nei modelli generativi personalizzati text-to-image (P-T2I), la generazione di immagini guidata da soggetti rimane una sfida. I principali colli di bottiglia includono: 1) Requisiti intensivi di risorse per l'addestramento, 2) Sensibilità agli iperparametri che porta a risultati inconsistenti, e 3) Bilanciare le complessità dell'allineamento tra nuovi concetti visivi e composizione. Iniziamo ripercorrendo la filosofia di base dei modelli di diffusione T2I per affrontare queste limitazioni. Principalmente, gli approcci contemporanei T2I guidati da soggetti si basano sui Modelli di Diffusione Latente (LDMs), che facilitano la mappatura T2I attraverso strati di cross-attention. Sebbene gli LDMs offrano vantaggi distintivi, la dipendenza dei metodi P-T2I dallo spazio latente di questi modelli di diffusione aumenta significativamente la domanda di risorse, portando a risultati inconsistenti e richiedendo numerose iterazioni per ottenere un'immagine desiderata. Recentemente, ECLIPSE ha dimostrato un percorso più efficiente in termini di risorse per l'addestramento di modelli T2I basati su UnCLIP, evitando la necessità di priorità di diffusione text-to-image. Basandoci su questo, introduciamo lambda-ECLIPSE. Il nostro metodo dimostra che un P-T2I efficace non dipende necessariamente dallo spazio latente dei modelli di diffusione. lambda-ECLIPSE raggiunge la personalizzazione T2I per singoli soggetti, multi-soggetti e guidata da bordi con soli 34M di parametri ed è addestrato in appena 74 ore di GPU utilizzando 1.6M di dati intervallati immagine-testo. Attraverso esperimenti estesi, stabiliamo inoltre che lambda-ECLIPSE supera le baseline esistenti nell'allineamento della composizione mantenendo le prestazioni di allineamento del concetto, anche con un utilizzo di risorse significativamente inferiore.

English

Despite the recent advances in personalized text-to-image (P-T2I) generative models, subject-driven T2I remains challenging. The primary bottlenecks include 1) Intensive training resource requirements, 2) Hyper-parameter sensitivity leading to inconsistent outputs, and 3) Balancing the intricacies of novel visual concept and composition alignment. We start by re-iterating the core philosophy of T2I diffusion models to address the above limitations. Predominantly, contemporary subject-driven T2I approaches hinge on Latent Diffusion Models (LDMs), which facilitate T2I mapping through cross-attention layers. While LDMs offer distinct advantages, P-T2I methods' reliance on the latent space of these diffusion models significantly escalates resource demands, leading to inconsistent results and necessitating numerous iterations for a single desired image. Recently, ECLIPSE has demonstrated a more resource-efficient pathway for training UnCLIP-based T2I models, circumventing the need for diffusion text-to-image priors. Building on this, we introduce lambda-ECLIPSE. Our method illustrates that effective P-T2I does not necessarily depend on the latent space of diffusion models. lambda-ECLIPSE achieves single, multi-subject, and edge-guided T2I personalization with just 34M parameters and is trained on a mere 74 GPU hours using 1.6M image-text interleaved data. Through extensive experiments, we also establish that lambda-ECLIPSE surpasses existing baselines in composition alignment while preserving concept alignment performance, even with significantly lower resource utilization.

λ-ECLIPSE: Modelli di Diffusione Testo-Immagine Personalizzati Multi-Concetto Sfruttando lo Spazio Latente di CLIP

λ-ECLIPSE: Multi-Concept Personalized Text-to-Image Diffusion Models by Leveraging CLIP Latent Space

Abstract

Support