DiffMorpher: Sfruttare le potenzialità dei modelli di diffusione per il morphing di immagini
DiffMorpher: Unleashing the Capability of Diffusion Models for Image Morphing
December 12, 2023
Autori: Kaiwen Zhang, Yifan Zhou, Xudong Xu, Xingang Pan, Bo Dai
cs.AI
Abstract
I modelli di diffusione hanno raggiunto una qualità di generazione di immagini straordinaria, superando i precedenti modelli generativi. Tuttavia, una limitazione significativa dei modelli di diffusione, rispetto alle GAN, è la loro difficoltà nell'interpolare in modo fluido tra due campioni di immagini, a causa del loro spazio latente altamente non strutturato. Tale interpolazione fluida è intrigante in quanto rappresenta naturalmente una soluzione per il compito di morphing di immagini con molte applicazioni. In questo lavoro, presentiamo DiffMorpher, il primo approccio che consente un'interpolazione di immagini fluida e naturale utilizzando modelli di diffusione. La nostra idea chiave è catturare la semantica delle due immagini adattando rispettivamente due LoRA a ciascuna di esse, e interpolare sia i parametri dei LoRA che i rumori latenti per garantire una transizione semantica fluida, in cui la corrispondenza emerge automaticamente senza la necessità di annotazioni. Inoltre, proponiamo una tecnica di interpolazione e iniezione dell'attenzione e un nuovo schema di campionamento per migliorare ulteriormente la fluidità tra immagini consecutive. Esperimenti estensivi dimostrano che DiffMorpher ottiene effetti di morphing di immagini notevolmente migliori rispetto ai metodi precedenti in una varietà di categorie di oggetti, colmando un gap funzionale critico che distingueva i modelli di diffusione dalle GAN.
English
Diffusion models have achieved remarkable image generation quality surpassing
previous generative models. However, a notable limitation of diffusion models,
in comparison to GANs, is their difficulty in smoothly interpolating between
two image samples, due to their highly unstructured latent space. Such a smooth
interpolation is intriguing as it naturally serves as a solution for the image
morphing task with many applications. In this work, we present DiffMorpher, the
first approach enabling smooth and natural image interpolation using diffusion
models. Our key idea is to capture the semantics of the two images by fitting
two LoRAs to them respectively, and interpolate between both the LoRA
parameters and the latent noises to ensure a smooth semantic transition, where
correspondence automatically emerges without the need for annotation. In
addition, we propose an attention interpolation and injection technique and a
new sampling schedule to further enhance the smoothness between consecutive
images. Extensive experiments demonstrate that DiffMorpher achieves starkly
better image morphing effects than previous methods across a variety of object
categories, bridging a critical functional gap that distinguished diffusion
models from GANs.