λ-ECLIPSE: Modelos de Difusão de Texto para Imagem Personalizados com Múltiplos Conceitos Utilizando o Espaço Latente do CLIP

Resumo

Apesar dos avanços recentes em modelos generativos de texto para imagem personalizados (P-T2I), a geração de imagens orientada por sujeitos (subject-driven T2I) continua sendo um desafio. Os principais gargalos incluem: 1) Requisitos intensivos de recursos de treinamento, 2) Sensibilidade a hiperparâmetros que leva a saídas inconsistentes, e 3) O equilíbrio entre as complexidades de novos conceitos visuais e o alinhamento de composição. Começamos reafirmando a filosofia central dos modelos de difusão para texto-imagem (T2I) para abordar essas limitações. Predominantemente, as abordagens contemporâneas de T2I orientadas por sujeitos dependem de Modelos de Difusão Latente (LDMs), que facilitam o mapeamento de T2I por meio de camadas de atenção cruzada. Embora os LDMs ofereçam vantagens distintas, a dependência dos métodos P-T2I no espaço latente desses modelos de difusão aumenta significativamente a demanda por recursos, resultando em saídas inconsistentes e exigindo inúmeras iterações para uma única imagem desejada. Recentemente, o ECLIPSE demonstrou um caminho mais eficiente em termos de recursos para treinar modelos T2I baseados em UnCLIP, eliminando a necessidade de priors de difusão para texto-imagem. Com base nisso, introduzimos o lambda-ECLIPSE. Nosso método ilustra que um P-T2I eficaz não depende necessariamente do espaço latente dos modelos de difusão. O lambda-ECLIPSE alcança personalização de T2I para um único sujeito, múltiplos sujeitos e guiado por bordas com apenas 34 milhões de parâmetros e é treinado em meras 74 horas de GPU usando 1,6 milhão de dados intercalados de imagem-texto. Por meio de extensos experimentos, também estabelecemos que o lambda-ECLIPSE supera as baselines existentes em alinhamento de composição, mantendo o desempenho de alinhamento de conceito, mesmo com uma utilização de recursos significativamente menor.

English

Despite the recent advances in personalized text-to-image (P-T2I) generative models, subject-driven T2I remains challenging. The primary bottlenecks include 1) Intensive training resource requirements, 2) Hyper-parameter sensitivity leading to inconsistent outputs, and 3) Balancing the intricacies of novel visual concept and composition alignment. We start by re-iterating the core philosophy of T2I diffusion models to address the above limitations. Predominantly, contemporary subject-driven T2I approaches hinge on Latent Diffusion Models (LDMs), which facilitate T2I mapping through cross-attention layers. While LDMs offer distinct advantages, P-T2I methods' reliance on the latent space of these diffusion models significantly escalates resource demands, leading to inconsistent results and necessitating numerous iterations for a single desired image. Recently, ECLIPSE has demonstrated a more resource-efficient pathway for training UnCLIP-based T2I models, circumventing the need for diffusion text-to-image priors. Building on this, we introduce lambda-ECLIPSE. Our method illustrates that effective P-T2I does not necessarily depend on the latent space of diffusion models. lambda-ECLIPSE achieves single, multi-subject, and edge-guided T2I personalization with just 34M parameters and is trained on a mere 74 GPU hours using 1.6M image-text interleaved data. Through extensive experiments, we also establish that lambda-ECLIPSE surpasses existing baselines in composition alignment while preserving concept alignment performance, even with significantly lower resource utilization.

λ-ECLIPSE: Modelos de Difusão de Texto para Imagem Personalizados com Múltiplos Conceitos Utilizando o Espaço Latente do CLIP

λ-ECLIPSE: Multi-Concept Personalized Text-to-Image Diffusion Models by Leveraging CLIP Latent Space

Resumo

Support