DragonDiffusion: 확산 모델에서 드래그 방식 조작 가능하게 하기
DragonDiffusion: Enabling Drag-style Manipulation on Diffusion Models
July 5, 2023
저자: Chong Mou, Xintao Wang, Jiechong Song, Ying Shan, Jian Zhang
cs.AI
초록
기존 대규모 텍스트-이미지(T2I) 모델이 상세한 텍스트 설명에서 고품질 이미지를 생성할 수 있는 능력을 갖추고 있음에도 불구하고, 이들은 종종 생성된 이미지나 실제 이미지를 정밀하게 편집하는 능력이 부족합니다. 본 논문에서는 Drag 스타일 조작을 Diffusion 모델에 적용할 수 있는 새로운 이미지 편집 방법인 DragonDiffusion을 제안합니다. 구체적으로, 우리는 Diffusion 모델의 중간 특징 간의 강력한 대응 관계를 기반으로 분류기 가이던스를 구성합니다. 이는 특징 대응 손실을 통해 편집 신호를 그래디언트로 변환하여 Diffusion 모델의 중간 표현을 수정할 수 있습니다. 이 가이던스 전략을 바탕으로, 우리는 의미론적 및 기하학적 정렬을 모두 고려한 다중 스케일 가이던스를 구축합니다. 또한, 원본 이미지와 편집 결과 간의 일관성을 유지하기 위해 크로스-브랜치 자기 주의 메커니즘을 추가했습니다. 우리의 방법은 효율적인 설계를 통해 생성된 이미지나 실제 이미지에 대해 객체 이동, 객체 크기 조정, 객체 외관 교체, 콘텐츠 드래깅과 같은 다양한 편집 모드를 달성합니다. 주목할 점은 모든 편집 및 콘텐츠 보존 신호가 이미지 자체에서 나오며, 모델은 미세 조정이나 추가 모듈이 필요하지 않다는 것입니다. 우리의 소스 코드는 https://github.com/MC-E/DragonDiffusion에서 확인할 수 있습니다.
English
Despite the ability of existing large-scale text-to-image (T2I) models to
generate high-quality images from detailed textual descriptions, they often
lack the ability to precisely edit the generated or real images. In this paper,
we propose a novel image editing method, DragonDiffusion, enabling Drag-style
manipulation on Diffusion models. Specifically, we construct classifier
guidance based on the strong correspondence of intermediate features in the
diffusion model. It can transform the editing signals into gradients via
feature correspondence loss to modify the intermediate representation of the
diffusion model. Based on this guidance strategy, we also build a multi-scale
guidance to consider both semantic and geometric alignment. Moreover, a
cross-branch self-attention is added to maintain the consistency between the
original image and the editing result. Our method, through an efficient design,
achieves various editing modes for the generated or real images, such as object
moving, object resizing, object appearance replacement, and content dragging.
It is worth noting that all editing and content preservation signals come from
the image itself, and the model does not require fine-tuning or additional
modules. Our source code will be available at
https://github.com/MC-E/DragonDiffusion.