λ-ECLIPSE: CLIP 잠재 공간 활용을 통한 다중 개념 개인화 텍스트-이미지 확산 모델
λ-ECLIPSE: Multi-Concept Personalized Text-to-Image Diffusion Models by Leveraging CLIP Latent Space
February 7, 2024
저자: Maitreya Patel, Sangmin Jung, Chitta Baral, Yezhou Yang
cs.AI
초록
최근 개인화된 텍스트-이미지(P-T2I) 생성 모델의 발전에도 불구하고, 주체 기반 T2I는 여전히 도전적인 과제로 남아 있습니다. 주요 병목 현상은 1) 집중적인 훈련 자원 요구, 2) 하이퍼파라미터 민감성으로 인한 일관성 없는 출력, 3) 새로운 시각적 개념과 구성 정렬의 복잡성 균형 맞추기 등입니다. 우리는 이러한 한계를 해결하기 위해 T2I 확산 모델의 핵심 철학을 재확인하는 것부터 시작합니다. 현대의 주체 기반 T2I 접근법은 주로 잠재 확산 모델(LDMs)에 의존하며, 이는 교차 주의 계층을 통해 T2I 매핑을 용이하게 합니다. LDMs는 뚜렷한 장점을 제공하지만, P-T2I 방법이 이러한 확산 모델의 잠재 공간에 의존함에 따라 자원 요구가 크게 증가하고, 일관성 없는 결과를 초래하며, 단일 원하는 이미지를 위해 수많은 반복이 필요합니다. 최근 ECLIPSE는 확산 텍스트-이미지 사전 없이도 UnCLIP 기반 T2I 모델을 훈련하는 더 자원 효율적인 경로를 보여주었습니다. 이를 기반으로 우리는 lambda-ECLIPSE를 소개합니다. 우리의 방법은 효과적인 P-T2I가 반드시 확산 모델의 잠재 공간에 의존할 필요가 없음을 보여줍니다. lambda-ECLIPSE는 단일, 다중 주체, 그리고 에지 가이드 T2I 개인화를 단 34M 파라미터와 1.6M 이미지-텍스트 인터리브 데이터를 사용하여 단 74 GPU 시간만으로 달성합니다. 광범위한 실험을 통해 우리는 lambda-ECLIPSE가 훨씬 낮은 자원 활용률로도 구성 정렬에서 기존 베이스라인을 능가하면서 개념 정렬 성능을 유지함을 입증했습니다.
English
Despite the recent advances in personalized text-to-image (P-T2I) generative
models, subject-driven T2I remains challenging. The primary bottlenecks include
1) Intensive training resource requirements, 2) Hyper-parameter sensitivity
leading to inconsistent outputs, and 3) Balancing the intricacies of novel
visual concept and composition alignment. We start by re-iterating the core
philosophy of T2I diffusion models to address the above limitations.
Predominantly, contemporary subject-driven T2I approaches hinge on Latent
Diffusion Models (LDMs), which facilitate T2I mapping through cross-attention
layers. While LDMs offer distinct advantages, P-T2I methods' reliance on the
latent space of these diffusion models significantly escalates resource
demands, leading to inconsistent results and necessitating numerous iterations
for a single desired image. Recently, ECLIPSE has demonstrated a more
resource-efficient pathway for training UnCLIP-based T2I models, circumventing
the need for diffusion text-to-image priors. Building on this, we introduce
lambda-ECLIPSE. Our method illustrates that effective P-T2I does not
necessarily depend on the latent space of diffusion models. lambda-ECLIPSE
achieves single, multi-subject, and edge-guided T2I personalization with just
34M parameters and is trained on a mere 74 GPU hours using 1.6M image-text
interleaved data. Through extensive experiments, we also establish that
lambda-ECLIPSE surpasses existing baselines in composition alignment while
preserving concept alignment performance, even with significantly lower
resource utilization.