λ-ECLIPSE: Modelos de Difusión de Texto a Imagen Personalizados Multi-Concepto mediante el Aprovechamiento del Espacio Latente de CLIP
λ-ECLIPSE: Multi-Concept Personalized Text-to-Image Diffusion Models by Leveraging CLIP Latent Space
February 7, 2024
Autores: Maitreya Patel, Sangmin Jung, Chitta Baral, Yezhou Yang
cs.AI
Resumen
A pesar de los recientes avances en los modelos generativos de texto a imagen personalizados (P-T2I), la generación de imágenes impulsada por sujetos sigue siendo un desafío. Los principales cuellos de botella incluyen: 1) Requisitos intensivos de recursos de entrenamiento, 2) Sensibilidad a los hiperparámetros que conduce a resultados inconsistentes, y 3) El equilibrio entre las complejidades de nuevos conceptos visuales y la alineación de la composición. Comenzamos reiterando la filosofía central de los modelos de difusión T2I para abordar estas limitaciones. Principalmente, los enfoques contemporáneos de T2I impulsados por sujetos dependen de los Modelos de Difusión Latente (LDMs), que facilitan el mapeo T2I a través de capas de atención cruzada. Aunque los LDMs ofrecen ventajas distintivas, la dependencia de los métodos P-T2I en el espacio latente de estos modelos de difusión aumenta significativamente la demanda de recursos, lo que lleva a resultados inconsistentes y requiere numerosas iteraciones para obtener una sola imagen deseada. Recientemente, ECLIPSE ha demostrado una vía más eficiente en recursos para entrenar modelos T2I basados en UnCLIP, evitando la necesidad de priores de difusión de texto a imagen. Basándonos en esto, presentamos lambda-ECLIPSE. Nuestro método muestra que un P-T2I efectivo no depende necesariamente del espacio latente de los modelos de difusión. lambda-ECLIPSE logra la personalización de T2I para un solo sujeto, múltiples sujetos y guiado por bordes con solo 34M de parámetros y se entrena en apenas 74 horas de GPU utilizando 1.6M de datos intercalados de imagen y texto. A través de extensos experimentos, también establecemos que lambda-ECLIPSE supera a los baselines existentes en la alineación de la composición mientras mantiene el rendimiento en la alineación de conceptos, incluso con un uso significativamente menor de recursos.
English
Despite the recent advances in personalized text-to-image (P-T2I) generative
models, subject-driven T2I remains challenging. The primary bottlenecks include
1) Intensive training resource requirements, 2) Hyper-parameter sensitivity
leading to inconsistent outputs, and 3) Balancing the intricacies of novel
visual concept and composition alignment. We start by re-iterating the core
philosophy of T2I diffusion models to address the above limitations.
Predominantly, contemporary subject-driven T2I approaches hinge on Latent
Diffusion Models (LDMs), which facilitate T2I mapping through cross-attention
layers. While LDMs offer distinct advantages, P-T2I methods' reliance on the
latent space of these diffusion models significantly escalates resource
demands, leading to inconsistent results and necessitating numerous iterations
for a single desired image. Recently, ECLIPSE has demonstrated a more
resource-efficient pathway for training UnCLIP-based T2I models, circumventing
the need for diffusion text-to-image priors. Building on this, we introduce
lambda-ECLIPSE. Our method illustrates that effective P-T2I does not
necessarily depend on the latent space of diffusion models. lambda-ECLIPSE
achieves single, multi-subject, and edge-guided T2I personalization with just
34M parameters and is trained on a mere 74 GPU hours using 1.6M image-text
interleaved data. Through extensive experiments, we also establish that
lambda-ECLIPSE surpasses existing baselines in composition alignment while
preserving concept alignment performance, even with significantly lower
resource utilization.