DiffMorpher: Liberando la Capacidad de los Modelos de Difusión para la Morfología de Imágenes

Resumen

Los modelos de difusión han logrado una calidad notable en la generación de imágenes, superando a modelos generativos anteriores. Sin embargo, una limitación significativa de los modelos de difusión, en comparación con las GAN, es su dificultad para interpolar suavemente entre dos muestras de imágenes, debido a su espacio latente altamente desestructurado. Dicha interpolación suave es intrigante, ya que sirve naturalmente como solución para la tarea de morphing de imágenes con muchas aplicaciones. En este trabajo, presentamos DiffMorpher, el primer enfoque que permite una interpolación de imágenes suave y natural utilizando modelos de difusión. Nuestra idea clave es capturar la semántica de las dos imágenes ajustando dos LoRAs respectivamente, e interpolar tanto los parámetros de LoRA como los ruidos latentes para garantizar una transición semántica suave, donde la correspondencia emerge automáticamente sin necesidad de anotación. Además, proponemos una técnica de interpolación e inyección de atención y un nuevo esquema de muestreo para mejorar aún más la suavidad entre imágenes consecutivas. Experimentos extensos demuestran que DiffMorpher logra efectos de morphing de imágenes notablemente mejores que los métodos anteriores en una variedad de categorías de objetos, cerrando una brecha funcional crítica que distinguía a los modelos de difusión de las GAN.

English

Diffusion models have achieved remarkable image generation quality surpassing previous generative models. However, a notable limitation of diffusion models, in comparison to GANs, is their difficulty in smoothly interpolating between two image samples, due to their highly unstructured latent space. Such a smooth interpolation is intriguing as it naturally serves as a solution for the image morphing task with many applications. In this work, we present DiffMorpher, the first approach enabling smooth and natural image interpolation using diffusion models. Our key idea is to capture the semantics of the two images by fitting two LoRAs to them respectively, and interpolate between both the LoRA parameters and the latent noises to ensure a smooth semantic transition, where correspondence automatically emerges without the need for annotation. In addition, we propose an attention interpolation and injection technique and a new sampling schedule to further enhance the smoothness between consecutive images. Extensive experiments demonstrate that DiffMorpher achieves starkly better image morphing effects than previous methods across a variety of object categories, bridging a critical functional gap that distinguished diffusion models from GANs.

DiffMorpher: Liberando la Capacidad de los Modelos de Difusión para la Morfología de Imágenes

DiffMorpher: Unleashing the Capability of Diffusion Models for Image Morphing

Resumen

Support