ChatPaper.aiChatPaper

DiffMorpher: Het potentieel van diffusiemodellen benutten voor beeldmorfing

DiffMorpher: Unleashing the Capability of Diffusion Models for Image Morphing

December 12, 2023
Auteurs: Kaiwen Zhang, Yifan Zhou, Xudong Xu, Xingang Pan, Bo Dai
cs.AI

Samenvatting

Diffusiemodellen hebben een opmerkelijke beeldgeneratiekwaliteit bereikt die eerdere generatieve modellen overtreft. Een opvallende beperking van diffusiemodellen, in vergelijking met GANs, is echter hun moeilijkheid om soepel te interpoleren tussen twee beeldmonsters, vanwege hun sterk ongestructureerde latente ruimte. Zo'n soepele interpolatie is intrigerend omdat het van nature een oplossing biedt voor de beeldmorfingtaak met veel toepassingen. In dit werk presenteren we DiffMorpher, de eerste aanpak die soepele en natuurlijke beeldinterpolatie mogelijk maakt met behulp van diffusiemodellen. Onze kernidee is om de semantiek van de twee afbeeldingen vast te leggen door respectievelijk twee LoRA's aan te passen, en te interpoleren tussen zowel de LoRA-parameters als de latente ruis om een soepele semantische overgang te garanderen, waarbij correspondentie automatisch ontstaat zonder de noodzaak van annotatie. Daarnaast stellen we een techniek voor aandachtinterpolatie en -injectie voor, evenals een nieuw bemonsteringsschema om de soepelheid tussen opeenvolgende afbeeldingen verder te verbeteren. Uitgebreide experimenten tonen aan dat DiffMorpher aanzienlijk betere beeldmorfingeffecten bereikt dan eerdere methoden over een verscheidenheid aan objectcategorieën, waardoor een kritieke functionele kloof wordt overbrugd die diffusiemodellen onderscheidde van GANs.
English
Diffusion models have achieved remarkable image generation quality surpassing previous generative models. However, a notable limitation of diffusion models, in comparison to GANs, is their difficulty in smoothly interpolating between two image samples, due to their highly unstructured latent space. Such a smooth interpolation is intriguing as it naturally serves as a solution for the image morphing task with many applications. In this work, we present DiffMorpher, the first approach enabling smooth and natural image interpolation using diffusion models. Our key idea is to capture the semantics of the two images by fitting two LoRAs to them respectively, and interpolate between both the LoRA parameters and the latent noises to ensure a smooth semantic transition, where correspondence automatically emerges without the need for annotation. In addition, we propose an attention interpolation and injection technique and a new sampling schedule to further enhance the smoothness between consecutive images. Extensive experiments demonstrate that DiffMorpher achieves starkly better image morphing effects than previous methods across a variety of object categories, bridging a critical functional gap that distinguished diffusion models from GANs.
PDF236December 15, 2024