DiffMorpher : Libérer le potentiel des modèles de diffusion pour le morphing d'images
DiffMorpher: Unleashing the Capability of Diffusion Models for Image Morphing
December 12, 2023
Auteurs: Kaiwen Zhang, Yifan Zhou, Xudong Xu, Xingang Pan, Bo Dai
cs.AI
Résumé
Les modèles de diffusion ont atteint une qualité remarquable dans la génération d'images, surpassant les modèles génératifs précédents. Cependant, une limitation notable des modèles de diffusion, par rapport aux GANs, est leur difficulté à interpoler de manière fluide entre deux échantillons d'images, en raison de leur espace latent hautement non structuré. Une telle interpolation fluide est intrigante car elle sert naturellement de solution pour la tâche de morphing d'images, qui a de nombreuses applications. Dans ce travail, nous présentons DiffMorpher, la première approche permettant une interpolation d'images fluide et naturelle en utilisant des modèles de diffusion. Notre idée clé est de capturer la sémantique des deux images en ajustant deux LoRAs respectivement, et d'interpoler à la fois les paramètres des LoRAs et les bruits latents pour assurer une transition sémantique fluide, où la correspondance émerge automatiquement sans nécessiter d'annotation. De plus, nous proposons une technique d'interpolation et d'injection d'attention ainsi qu'un nouveau calendrier d'échantillonnage pour améliorer davantage la fluidité entre les images consécutives. Des expériences approfondies démontrent que DiffMorpher obtient des effets de morphing d'images nettement meilleurs que les méthodes précédentes sur une variété de catégories d'objets, comblant ainsi une lacune fonctionnelle critique qui distinguait les modèles de diffusion des GANs.
English
Diffusion models have achieved remarkable image generation quality surpassing
previous generative models. However, a notable limitation of diffusion models,
in comparison to GANs, is their difficulty in smoothly interpolating between
two image samples, due to their highly unstructured latent space. Such a smooth
interpolation is intriguing as it naturally serves as a solution for the image
morphing task with many applications. In this work, we present DiffMorpher, the
first approach enabling smooth and natural image interpolation using diffusion
models. Our key idea is to capture the semantics of the two images by fitting
two LoRAs to them respectively, and interpolate between both the LoRA
parameters and the latent noises to ensure a smooth semantic transition, where
correspondence automatically emerges without the need for annotation. In
addition, we propose an attention interpolation and injection technique and a
new sampling schedule to further enhance the smoothness between consecutive
images. Extensive experiments demonstrate that DiffMorpher achieves starkly
better image morphing effects than previous methods across a variety of object
categories, bridging a critical functional gap that distinguished diffusion
models from GANs.