ChatPaper.aiChatPaper

FreeMorph: Generalisiertes Bildmorphen ohne Anpassung mit Diffusionsmodell

FreeMorph: Tuning-Free Generalized Image Morphing with Diffusion Model

July 2, 2025
Autoren: Yukang Cao, Chenyang Si, Jinghao Wang, Ziwei Liu
cs.AI

Zusammenfassung

Wir präsentieren FreeMorph, die erste abstimmungsfreie Methode für Bildmorphing, die Eingaben mit unterschiedlicher Semantik oder Anordnung verarbeiten kann. Im Gegensatz zu bestehenden Methoden, die auf das Feinabstimmen vortrainierter Diffusionsmodelle angewiesen sind und durch Zeitbeschränkungen sowie semantische/layoutbezogene Diskrepanzen eingeschränkt werden, liefert FreeMorph hochwertiges Bildmorphing ohne instanzspezifisches Training. Trotz ihrer Effizienz und ihres Potenzials stehen abstimmungsfreie Methoden vor Herausforderungen, qualitativ hochwertige Ergebnisse zu erzielen, bedingt durch die nichtlineare Natur des mehrstufigen Entrauschungsprozesses und durch Verzerrungen, die von den vortrainierten Diffusionsmodellen übernommen werden. In diesem Artikel stellen wir FreeMorph vor, um diese Herausforderungen durch die Integration zweier Schlüsselinnovationen zu bewältigen. 1) Wir schlagen zunächst ein führungsbewusstes sphärisches Interpolationsdesign vor, das explizite Führung durch die Eingabebilder einbezieht, indem die Selbstaufmerksamkeitsmodule modifiziert werden, wodurch Identitätsverlust vermieden und gerichtete Übergänge in der generierten Sequenz sichergestellt werden. 2) Des Weiteren führen wir einen schrittorientierten Variationstrend ein, der Selbstaufmerksamkeitsmodule, die von jedem Eingabebild abgeleitet werden, miteinander kombiniert, um kontrollierte und konsistente Übergänge zu erreichen, die beide Eingaben berücksichtigen. Unsere umfangreichen Auswertungen zeigen, dass FreeMorph bestehende Methoden übertrifft, indem es 10x bis 50x schneller ist und einen neuen Stand der Technik für Bildmorphing etabliert.
English
We present FreeMorph, the first tuning-free method for image morphing that accommodates inputs with different semantics or layouts. Unlike existing methods that rely on finetuning pre-trained diffusion models and are limited by time constraints and semantic/layout discrepancies, FreeMorph delivers high-fidelity image morphing without requiring per-instance training. Despite their efficiency and potential, tuning-free methods face challenges in maintaining high-quality results due to the non-linear nature of the multi-step denoising process and biases inherited from the pre-trained diffusion model. In this paper, we introduce FreeMorph to address these challenges by integrating two key innovations. 1) We first propose a guidance-aware spherical interpolation design that incorporates explicit guidance from the input images by modifying the self-attention modules, thereby addressing identity loss and ensuring directional transitions throughout the generated sequence. 2) We further introduce a step-oriented variation trend that blends self-attention modules derived from each input image to achieve controlled and consistent transitions that respect both inputs. Our extensive evaluations demonstrate that FreeMorph outperforms existing methods, being 10x ~ 50x faster and establishing a new state-of-the-art for image morphing.
PDF121July 3, 2025