ChatPaper.aiChatPaper

λ-ECLIPSE: Модели генерации персонализированных изображений по тексту с поддержкой нескольких концепций через использование латентного пространства CLIP

λ-ECLIPSE: Multi-Concept Personalized Text-to-Image Diffusion Models by Leveraging CLIP Latent Space

February 7, 2024
Авторы: Maitreya Patel, Sangmin Jung, Chitta Baral, Yezhou Yang
cs.AI

Аннотация

Несмотря на недавние достижения в персонализированных моделях генерации текста в изображение (P-T2I), задача создания изображений на основе конкретных объектов остается сложной. Основные ограничения включают: 1) Высокие требования к вычислительным ресурсам для обучения, 2) Чувствительность к гиперпараметрам, приводящую к нестабильным результатам, и 3) Сложность балансировки между созданием новых визуальных концепций и их композиционным выравниванием. Мы начинаем с повторения основной философии диффузионных моделей T2I, чтобы преодолеть эти ограничения. Современные подходы к генерации изображений на основе объектов в основном опираются на латентные диффузионные модели (LDMs), которые реализуют отображение текста в изображение через слои кросс-внимания. Хотя LDMs обладают определенными преимуществами, зависимость методов P-T2I от латентного пространства этих моделей значительно увеличивает потребность в ресурсах, приводит к нестабильным результатам и требует множества итераций для получения одного желаемого изображения. Недавно ECLIPSE продемонстрировал более ресурсоэффективный путь обучения моделей T2I на основе UnCLIP, устраняя необходимость в диффузионных априорных моделях текста в изображение. Развивая эту идею, мы представляем lambda-ECLIPSE. Наш метод показывает, что эффективная P-T2I не обязательно зависит от латентного пространства диффузионных моделей. lambda-ECLIPSE достигает персонализации T2I для одного объекта, нескольких объектов и с использованием граничного руководства всего с 34 миллионами параметров и обучается всего за 74 часа на GPU с использованием 1,6 миллиона пар изображение-текст. В ходе обширных экспериментов мы также установили, что lambda-ECLIPSE превосходит существующие базовые подходы в композиционном выравнивании, сохраняя при этом производительность в выравнивании концепций, даже при значительно меньшем использовании ресурсов.
English
Despite the recent advances in personalized text-to-image (P-T2I) generative models, subject-driven T2I remains challenging. The primary bottlenecks include 1) Intensive training resource requirements, 2) Hyper-parameter sensitivity leading to inconsistent outputs, and 3) Balancing the intricacies of novel visual concept and composition alignment. We start by re-iterating the core philosophy of T2I diffusion models to address the above limitations. Predominantly, contemporary subject-driven T2I approaches hinge on Latent Diffusion Models (LDMs), which facilitate T2I mapping through cross-attention layers. While LDMs offer distinct advantages, P-T2I methods' reliance on the latent space of these diffusion models significantly escalates resource demands, leading to inconsistent results and necessitating numerous iterations for a single desired image. Recently, ECLIPSE has demonstrated a more resource-efficient pathway for training UnCLIP-based T2I models, circumventing the need for diffusion text-to-image priors. Building on this, we introduce lambda-ECLIPSE. Our method illustrates that effective P-T2I does not necessarily depend on the latent space of diffusion models. lambda-ECLIPSE achieves single, multi-subject, and edge-guided T2I personalization with just 34M parameters and is trained on a mere 74 GPU hours using 1.6M image-text interleaved data. Through extensive experiments, we also establish that lambda-ECLIPSE surpasses existing baselines in composition alignment while preserving concept alignment performance, even with significantly lower resource utilization.
PDF193December 15, 2024