DiffMorpher: Liberando la Capacidad de los Modelos de Difusión para la Morfología de Imágenes
DiffMorpher: Unleashing the Capability of Diffusion Models for Image Morphing
December 12, 2023
Autores: Kaiwen Zhang, Yifan Zhou, Xudong Xu, Xingang Pan, Bo Dai
cs.AI
Resumen
Los modelos de difusión han logrado una calidad notable en la generación de imágenes, superando a modelos generativos anteriores. Sin embargo, una limitación significativa de los modelos de difusión, en comparación con las GAN, es su dificultad para interpolar suavemente entre dos muestras de imágenes, debido a su espacio latente altamente desestructurado. Dicha interpolación suave es intrigante, ya que sirve naturalmente como solución para la tarea de morphing de imágenes con muchas aplicaciones. En este trabajo, presentamos DiffMorpher, el primer enfoque que permite una interpolación de imágenes suave y natural utilizando modelos de difusión. Nuestra idea clave es capturar la semántica de las dos imágenes ajustando dos LoRAs respectivamente, e interpolar tanto los parámetros de LoRA como los ruidos latentes para garantizar una transición semántica suave, donde la correspondencia emerge automáticamente sin necesidad de anotación. Además, proponemos una técnica de interpolación e inyección de atención y un nuevo esquema de muestreo para mejorar aún más la suavidad entre imágenes consecutivas. Experimentos extensos demuestran que DiffMorpher logra efectos de morphing de imágenes notablemente mejores que los métodos anteriores en una variedad de categorías de objetos, cerrando una brecha funcional crítica que distinguía a los modelos de difusión de las GAN.
English
Diffusion models have achieved remarkable image generation quality surpassing
previous generative models. However, a notable limitation of diffusion models,
in comparison to GANs, is their difficulty in smoothly interpolating between
two image samples, due to their highly unstructured latent space. Such a smooth
interpolation is intriguing as it naturally serves as a solution for the image
morphing task with many applications. In this work, we present DiffMorpher, the
first approach enabling smooth and natural image interpolation using diffusion
models. Our key idea is to capture the semantics of the two images by fitting
two LoRAs to them respectively, and interpolate between both the LoRA
parameters and the latent noises to ensure a smooth semantic transition, where
correspondence automatically emerges without the need for annotation. In
addition, we propose an attention interpolation and injection technique and a
new sampling schedule to further enhance the smoothness between consecutive
images. Extensive experiments demonstrate that DiffMorpher achieves starkly
better image morphing effects than previous methods across a variety of object
categories, bridging a critical functional gap that distinguished diffusion
models from GANs.