DiffMorpher: Entfesselung der Fähigkeiten von Diffusionsmodellen für Bildmorphing
DiffMorpher: Unleashing the Capability of Diffusion Models for Image Morphing
December 12, 2023
papers.authors: Kaiwen Zhang, Yifan Zhou, Xudong Xu, Xingang Pan, Bo Dai
cs.AI
papers.abstract
Diffusion-Modelle haben eine bemerkenswerte Bildgenerierungsqualität erreicht, die frühere generative Modelle übertrifft. Ein wesentlicher Nachteil von Diffusion-Modellen im Vergleich zu GANs ist jedoch ihre Schwierigkeit, nahtlos zwischen zwei Bildbeispielen zu interpolieren, was auf ihren stark unstrukturierten latenten Raum zurückzuführen ist. Eine solche glatte Interpolation ist besonders interessant, da sie natürlicherweise eine Lösung für die Aufgabe des Bildmorphings mit vielen Anwendungen darstellt. In dieser Arbeit präsentieren wir DiffMorpher, den ersten Ansatz, der eine glatte und natürliche Bildinterpolation mit Diffusion-Modellen ermöglicht. Unser zentraler Gedanke besteht darin, die Semantik der beiden Bilder zu erfassen, indem jeweils zwei LoRAs an sie angepasst werden, und sowohl zwischen den LoRA-Parametern als auch den latenten Rauschen zu interpolieren, um einen fließenden semantischen Übergang zu gewährleisten, bei dem die Korrespondenz automatisch entsteht, ohne dass Annotationen erforderlich sind. Darüber hinaus schlagen wir eine Technik zur Interpolation und Injektion von Aufmerksamkeit sowie einen neuen Sampling-Zeitplan vor, um die Glätte zwischen aufeinanderfolgenden Bildern weiter zu verbessern. Umfangreiche Experimente zeigen, dass DiffMorpher deutlich bessere Bildmorphing-Effekte als bisherige Methoden über eine Vielzahl von Objektkategorien hinweg erzielt und damit eine kritische Funktionslücke schließt, die Diffusion-Modelle von GANs unterschieden hat.
English
Diffusion models have achieved remarkable image generation quality surpassing
previous generative models. However, a notable limitation of diffusion models,
in comparison to GANs, is their difficulty in smoothly interpolating between
two image samples, due to their highly unstructured latent space. Such a smooth
interpolation is intriguing as it naturally serves as a solution for the image
morphing task with many applications. In this work, we present DiffMorpher, the
first approach enabling smooth and natural image interpolation using diffusion
models. Our key idea is to capture the semantics of the two images by fitting
two LoRAs to them respectively, and interpolate between both the LoRA
parameters and the latent noises to ensure a smooth semantic transition, where
correspondence automatically emerges without the need for annotation. In
addition, we propose an attention interpolation and injection technique and a
new sampling schedule to further enhance the smoothness between consecutive
images. Extensive experiments demonstrate that DiffMorpher achieves starkly
better image morphing effects than previous methods across a variety of object
categories, bridging a critical functional gap that distinguished diffusion
models from GANs.