LIME: 확산 모델에서의 주의 규제를 통한 지역적 이미지 편집
LIME: Localized Image Editing via Attention Regularization in Diffusion Models
December 14, 2023
저자: Enis Simsar, Alessio Tonioni, Yongqin Xian, Thomas Hofmann, Federico Tombari
cs.AI
초록
확산 모델(Diffusion Models, DMs)은 최근 텍스트-이미지 생성 분야의 발전과 함께 고품질이고 다양한 이미지를 생성할 수 있는 능력으로 주목받고 있다. 현재 연구의 초점은 DMs의 제어 가능성으로 이동하고 있으며, 이 영역에서 중요한 과제는 이미지의 특정 영역을 수정하면서 나머지 콘텐츠에 영향을 미치지 않는 지역적 편집(localized editing)이다. 본 논문은 사용자가 지정한 관심 영역(RoI)이나 추가 텍스트 입력 없이도 확산 모델에서 지역적 이미지 편집을 가능하게 하는 LIME을 소개한다. 우리의 방법은 사전 훈련된 방법의 특징과 간단한 클러스터링 기법을 활용하여 정밀한 의미론적 분할 맵을 획득한다. 이후, 교차 주의 맵(cross-attention maps)을 활용하여 이러한 세그먼트를 지역적 편집을 위해 정제한다. 마지막으로, 노이즈 제거 단계에서 RoI 내 관련 없는 교차 주의 점수를 제한하는 새로운 교차 주의 정규화 기법을 제안하여 지역적 편집을 보장한다. 우리의 접근 방식은 재훈련이나 미세 조정 없이도 다양한 편집 벤치마크에서 기존 방법의 성능을 일관되게 향상시킨다.
English
Diffusion models (DMs) have gained prominence due to their ability to
generate high-quality, varied images, with recent advancements in text-to-image
generation. The research focus is now shifting towards the controllability of
DMs. A significant challenge within this domain is localized editing, where
specific areas of an image are modified without affecting the rest of the
content. This paper introduces LIME for localized image editing in diffusion
models that do not require user-specified regions of interest (RoI) or
additional text input. Our method employs features from pre-trained methods and
a simple clustering technique to obtain precise semantic segmentation maps.
Then, by leveraging cross-attention maps, it refines these segments for
localized edits. Finally, we propose a novel cross-attention regularization
technique that penalizes unrelated cross-attention scores in the RoI during the
denoising steps, ensuring localized edits. Our approach, without re-training
and fine-tuning, consistently improves the performance of existing methods in
various editing benchmarks.