DiffMorpher: 이미지 모핑을 위한 확산 모델의 잠재력 발휘
DiffMorpher: Unleashing the Capability of Diffusion Models for Image Morphing
December 12, 2023
저자: Kaiwen Zhang, Yifan Zhou, Xudong Xu, Xingang Pan, Bo Dai
cs.AI
초록
디퓨전 모델은 이전의 생성 모델을 뛰어넘는 뛰어난 이미지 생성 품질을 달성했습니다. 그러나 GAN과 비교했을 때 디퓨전 모델의 주목할 만한 한계는 고도로 비구조화된 잠재 공간으로 인해 두 이미지 샘플 간의 부드러운 보간이 어렵다는 점입니다. 이러한 부드러운 보간은 이미지 모핑 작업에 대한 자연스러운 해결책으로서 많은 응용 분야에서 흥미로운 주제입니다. 본 연구에서는 디퓨전 모델을 사용하여 부드럽고 자연스러운 이미지 보간을 가능하게 하는 첫 번째 접근법인 DiffMorpher를 제시합니다. 우리의 핵심 아이디어는 두 이미지의 의미를 각각에 맞춰 두 개의 LoRA를 학습시키고, LoRA 매개변수와 잠재 노이즈를 보간하여 부드러운 의미적 전환을 보장하는 것입니다. 이 과정에서 주석 없이도 대응 관계가 자동으로 나타납니다. 또한, 연속된 이미지 간의 부드러움을 더욱 향상시키기 위해 주의(attention) 보간 및 주입 기술과 새로운 샘플링 스케줄을 제안합니다. 광범위한 실험을 통해 DiffMorpher가 다양한 객체 범주에서 이전 방법들보다 월등히 나은 이미지 모핑 효과를 달성함을 입증하며, 이는 디퓨전 모델과 GAN을 구분짓던 중요한 기능적 격차를 메우는 결과를 보여줍니다.
English
Diffusion models have achieved remarkable image generation quality surpassing
previous generative models. However, a notable limitation of diffusion models,
in comparison to GANs, is their difficulty in smoothly interpolating between
two image samples, due to their highly unstructured latent space. Such a smooth
interpolation is intriguing as it naturally serves as a solution for the image
morphing task with many applications. In this work, we present DiffMorpher, the
first approach enabling smooth and natural image interpolation using diffusion
models. Our key idea is to capture the semantics of the two images by fitting
two LoRAs to them respectively, and interpolate between both the LoRA
parameters and the latent noises to ensure a smooth semantic transition, where
correspondence automatically emerges without the need for annotation. In
addition, we propose an attention interpolation and injection technique and a
new sampling schedule to further enhance the smoothness between consecutive
images. Extensive experiments demonstrate that DiffMorpher achieves starkly
better image morphing effects than previous methods across a variety of object
categories, bridging a critical functional gap that distinguished diffusion
models from GANs.