DiffMorpher: Sfruttare le potenzialità dei modelli di diffusione per il morphing di immagini

Abstract

I modelli di diffusione hanno raggiunto una qualità di generazione di immagini straordinaria, superando i precedenti modelli generativi. Tuttavia, una limitazione significativa dei modelli di diffusione, rispetto alle GAN, è la loro difficoltà nell'interpolare in modo fluido tra due campioni di immagini, a causa del loro spazio latente altamente non strutturato. Tale interpolazione fluida è intrigante in quanto rappresenta naturalmente una soluzione per il compito di morphing di immagini con molte applicazioni. In questo lavoro, presentiamo DiffMorpher, il primo approccio che consente un'interpolazione di immagini fluida e naturale utilizzando modelli di diffusione. La nostra idea chiave è catturare la semantica delle due immagini adattando rispettivamente due LoRA a ciascuna di esse, e interpolare sia i parametri dei LoRA che i rumori latenti per garantire una transizione semantica fluida, in cui la corrispondenza emerge automaticamente senza la necessità di annotazioni. Inoltre, proponiamo una tecnica di interpolazione e iniezione dell'attenzione e un nuovo schema di campionamento per migliorare ulteriormente la fluidità tra immagini consecutive. Esperimenti estensivi dimostrano che DiffMorpher ottiene effetti di morphing di immagini notevolmente migliori rispetto ai metodi precedenti in una varietà di categorie di oggetti, colmando un gap funzionale critico che distingueva i modelli di diffusione dalle GAN.

English

Diffusion models have achieved remarkable image generation quality surpassing previous generative models. However, a notable limitation of diffusion models, in comparison to GANs, is their difficulty in smoothly interpolating between two image samples, due to their highly unstructured latent space. Such a smooth interpolation is intriguing as it naturally serves as a solution for the image morphing task with many applications. In this work, we present DiffMorpher, the first approach enabling smooth and natural image interpolation using diffusion models. Our key idea is to capture the semantics of the two images by fitting two LoRAs to them respectively, and interpolate between both the LoRA parameters and the latent noises to ensure a smooth semantic transition, where correspondence automatically emerges without the need for annotation. In addition, we propose an attention interpolation and injection technique and a new sampling schedule to further enhance the smoothness between consecutive images. Extensive experiments demonstrate that DiffMorpher achieves starkly better image morphing effects than previous methods across a variety of object categories, bridging a critical functional gap that distinguished diffusion models from GANs.

DiffMorpher: Sfruttare le potenzialità dei modelli di diffusione per il morphing di immagini

DiffMorpher: Unleashing the Capability of Diffusion Models for Image Morphing

Abstract

Support