DiffMorpher: Раскрытие потенциала диффузионных моделей для морфинга изображений
DiffMorpher: Unleashing the Capability of Diffusion Models for Image Morphing
December 12, 2023
Авторы: Kaiwen Zhang, Yifan Zhou, Xudong Xu, Xingang Pan, Bo Dai
cs.AI
Аннотация
Диффузионные модели достигли выдающегося качества генерации изображений, превзойдя предыдущие генеративные модели. Однако заметным ограничением диффузионных моделей по сравнению с GAN является их сложность в плавной интерполяции между двумя образцами изображений из-за их высоко неструктурированного латентного пространства. Такая плавная интерполяция представляет интерес, поскольку естественным образом служит решением задачи морфинга изображений с множеством применений. В данной работе мы представляем DiffMorpher — первый подход, позволяющий осуществлять плавную и естественную интерполяцию изображений с использованием диффузионных моделей. Наша ключевая идея заключается в том, чтобы захватить семантику двух изображений, адаптировав для них две модели LoRA соответственно, и интерполировать как параметры LoRA, так и латентные шумы, чтобы обеспечить плавный семантический переход, где соответствие возникает автоматически без необходимости аннотации. Кроме того, мы предлагаем технику интерполяции и инъекции внимания, а также новый график сэмплинга для дальнейшего повышения плавности между последовательными изображениями. Многочисленные эксперименты демонстрируют, что DiffMorpher достигает значительно лучших эффектов морфинга изображений, чем предыдущие методы, для различных категорий объектов, устраняя критический функциональный разрыв, который отличал диффузионные модели от GAN.
English
Diffusion models have achieved remarkable image generation quality surpassing
previous generative models. However, a notable limitation of diffusion models,
in comparison to GANs, is their difficulty in smoothly interpolating between
two image samples, due to their highly unstructured latent space. Such a smooth
interpolation is intriguing as it naturally serves as a solution for the image
morphing task with many applications. In this work, we present DiffMorpher, the
first approach enabling smooth and natural image interpolation using diffusion
models. Our key idea is to capture the semantics of the two images by fitting
two LoRAs to them respectively, and interpolate between both the LoRA
parameters and the latent noises to ensure a smooth semantic transition, where
correspondence automatically emerges without the need for annotation. In
addition, we propose an attention interpolation and injection technique and a
new sampling schedule to further enhance the smoothness between consecutive
images. Extensive experiments demonstrate that DiffMorpher achieves starkly
better image morphing effects than previous methods across a variety of object
categories, bridging a critical functional gap that distinguished diffusion
models from GANs.