λ-ECLIPSE: Modelos de Difusão de Texto para Imagem Personalizados com Múltiplos Conceitos Utilizando o Espaço Latente do CLIP
λ-ECLIPSE: Multi-Concept Personalized Text-to-Image Diffusion Models by Leveraging CLIP Latent Space
February 7, 2024
Autores: Maitreya Patel, Sangmin Jung, Chitta Baral, Yezhou Yang
cs.AI
Resumo
Apesar dos avanços recentes em modelos generativos de texto para imagem personalizados (P-T2I), a geração de imagens orientada por sujeitos (subject-driven T2I) continua sendo um desafio. Os principais gargalos incluem: 1) Requisitos intensivos de recursos de treinamento, 2) Sensibilidade a hiperparâmetros que leva a saídas inconsistentes, e 3) O equilíbrio entre as complexidades de novos conceitos visuais e o alinhamento de composição. Começamos reafirmando a filosofia central dos modelos de difusão para texto-imagem (T2I) para abordar essas limitações. Predominantemente, as abordagens contemporâneas de T2I orientadas por sujeitos dependem de Modelos de Difusão Latente (LDMs), que facilitam o mapeamento de T2I por meio de camadas de atenção cruzada. Embora os LDMs ofereçam vantagens distintas, a dependência dos métodos P-T2I no espaço latente desses modelos de difusão aumenta significativamente a demanda por recursos, resultando em saídas inconsistentes e exigindo inúmeras iterações para uma única imagem desejada. Recentemente, o ECLIPSE demonstrou um caminho mais eficiente em termos de recursos para treinar modelos T2I baseados em UnCLIP, eliminando a necessidade de priors de difusão para texto-imagem. Com base nisso, introduzimos o lambda-ECLIPSE. Nosso método ilustra que um P-T2I eficaz não depende necessariamente do espaço latente dos modelos de difusão. O lambda-ECLIPSE alcança personalização de T2I para um único sujeito, múltiplos sujeitos e guiado por bordas com apenas 34 milhões de parâmetros e é treinado em meras 74 horas de GPU usando 1,6 milhão de dados intercalados de imagem-texto. Por meio de extensos experimentos, também estabelecemos que o lambda-ECLIPSE supera as baselines existentes em alinhamento de composição, mantendo o desempenho de alinhamento de conceito, mesmo com uma utilização de recursos significativamente menor.
English
Despite the recent advances in personalized text-to-image (P-T2I) generative
models, subject-driven T2I remains challenging. The primary bottlenecks include
1) Intensive training resource requirements, 2) Hyper-parameter sensitivity
leading to inconsistent outputs, and 3) Balancing the intricacies of novel
visual concept and composition alignment. We start by re-iterating the core
philosophy of T2I diffusion models to address the above limitations.
Predominantly, contemporary subject-driven T2I approaches hinge on Latent
Diffusion Models (LDMs), which facilitate T2I mapping through cross-attention
layers. While LDMs offer distinct advantages, P-T2I methods' reliance on the
latent space of these diffusion models significantly escalates resource
demands, leading to inconsistent results and necessitating numerous iterations
for a single desired image. Recently, ECLIPSE has demonstrated a more
resource-efficient pathway for training UnCLIP-based T2I models, circumventing
the need for diffusion text-to-image priors. Building on this, we introduce
lambda-ECLIPSE. Our method illustrates that effective P-T2I does not
necessarily depend on the latent space of diffusion models. lambda-ECLIPSE
achieves single, multi-subject, and edge-guided T2I personalization with just
34M parameters and is trained on a mere 74 GPU hours using 1.6M image-text
interleaved data. Through extensive experiments, we also establish that
lambda-ECLIPSE surpasses existing baselines in composition alignment while
preserving concept alignment performance, even with significantly lower
resource utilization.