DreamMatcher: 의미적 일관성을 위한 텍스트-이미지 개인화를 위한 외관 매칭 자기 주의 메커니즘
DreamMatcher: Appearance Matching Self-Attention for Semantically-Consistent Text-to-Image Personalization
February 15, 2024
저자: Jisu Nam, Heesu Kim, DongJae Lee, Siyoon Jin, Seungryong Kim, Seunggyu Chang
cs.AI
초록
텍스트-이미지(T2I) 개인화의 목표는 사용자가 제공한 참조 개념에 맞춰 확산 모델을 사용자 정의하여, 목표 프롬프트와 일치하는 다양한 개념 이미지를 생성하는 것이다. 참조 개념을 고유한 텍스트 임베딩으로 표현하는 기존의 방법들은 종종 참조의 외관을 정확히 모방하지 못한다. 이를 해결하기 위해, 참조 이미지를 목표 노이즈 제거 과정에 명시적으로 조건화하는 방법, 즉 키-값 대체가 하나의 해결책이 될 수 있다. 그러나 기존 연구들은 사전 학습된 T2I 모델의 구조 경로를 방해하기 때문에 지역 편집에 제한된다. 이를 극복하기 위해, 우리는 T2I 개인화를 의미론적 매칭으로 재구성하는 새로운 플러그인 방법인 DreamMatcher를 제안한다. 구체적으로, DreamMatcher는 의미론적 매칭에 의해 정렬된 참조 값으로 목표 값을 대체하면서, 사전 학습된 T2I 모델의 다양한 구조 생성 능력을 보존하기 위해 구조 경로를 변경하지 않는다. 또한, 우리는 목표 프롬프트에 의해 도입된 관련 없는 영역으로부터 개인화된 개념을 분리하기 위해 의미론적 일관성 마스킹 전략을 도입한다. 기존 T2I 모델과 호환되는 DreamMatcher는 복잡한 시나리오에서 상당한 개선을 보여준다. 집중적인 분석을 통해 우리의 접근법의 효과를 입증한다.
English
The objective of text-to-image (T2I) personalization is to customize a
diffusion model to a user-provided reference concept, generating diverse images
of the concept aligned with the target prompts. Conventional methods
representing the reference concepts using unique text embeddings often fail to
accurately mimic the appearance of the reference. To address this, one solution
may be explicitly conditioning the reference images into the target denoising
process, known as key-value replacement. However, prior works are constrained
to local editing since they disrupt the structure path of the pre-trained T2I
model. To overcome this, we propose a novel plug-in method, called
DreamMatcher, which reformulates T2I personalization as semantic matching.
Specifically, DreamMatcher replaces the target values with reference values
aligned by semantic matching, while leaving the structure path unchanged to
preserve the versatile capability of pre-trained T2I models for generating
diverse structures. We also introduce a semantic-consistent masking strategy to
isolate the personalized concept from irrelevant regions introduced by the
target prompts. Compatible with existing T2I models, DreamMatcher shows
significant improvements in complex scenarios. Intensive analyses demonstrate
the effectiveness of our approach.