ChatPaper.aiChatPaper

DiffMorpher: Liberando o Potencial dos Modelos de Difusão para a Morfologia de Imagens

DiffMorpher: Unleashing the Capability of Diffusion Models for Image Morphing

December 12, 2023
Autores: Kaiwen Zhang, Yifan Zhou, Xudong Xu, Xingang Pan, Bo Dai
cs.AI

Resumo

Os modelos de difusão alcançaram uma qualidade notável na geração de imagens, superando modelos generativos anteriores. No entanto, uma limitação significativa dos modelos de difusão, em comparação com GANs, é a dificuldade em interpolar suavemente entre duas amostras de imagem, devido ao seu espaço latente altamente não estruturado. Essa interpolação suave é intrigante, pois naturalmente serve como uma solução para a tarefa de morphing de imagens, com muitas aplicações. Neste trabalho, apresentamos o DiffMorpher, a primeira abordagem que permite uma interpolação suave e natural de imagens usando modelos de difusão. Nossa ideia principal é capturar a semântica das duas imagens ajustando dois LoRAs a elas, respectivamente, e interpolar tanto os parâmetros dos LoRAs quanto os ruídos latentes para garantir uma transição semântica suave, onde a correspondência emerge automaticamente sem a necessidade de anotação. Além disso, propomos uma técnica de interpolação e injeção de atenção e um novo cronograma de amostragem para aprimorar ainda mais a suavidade entre imagens consecutivas. Experimentos extensivos demonstram que o DiffMorpher alcança efeitos de morphing de imagem significativamente melhores do que métodos anteriores em uma variedade de categorias de objetos, preenchendo uma lacuna funcional crítica que distinguia os modelos de difusão das GANs.
English
Diffusion models have achieved remarkable image generation quality surpassing previous generative models. However, a notable limitation of diffusion models, in comparison to GANs, is their difficulty in smoothly interpolating between two image samples, due to their highly unstructured latent space. Such a smooth interpolation is intriguing as it naturally serves as a solution for the image morphing task with many applications. In this work, we present DiffMorpher, the first approach enabling smooth and natural image interpolation using diffusion models. Our key idea is to capture the semantics of the two images by fitting two LoRAs to them respectively, and interpolate between both the LoRA parameters and the latent noises to ensure a smooth semantic transition, where correspondence automatically emerges without the need for annotation. In addition, we propose an attention interpolation and injection technique and a new sampling schedule to further enhance the smoothness between consecutive images. Extensive experiments demonstrate that DiffMorpher achieves starkly better image morphing effects than previous methods across a variety of object categories, bridging a critical functional gap that distinguished diffusion models from GANs.
PDF236December 15, 2024