FreeMorph: Morfologia Generalizzata delle Immagini senza Regolazione con Modello di Diffusione
FreeMorph: Tuning-Free Generalized Image Morphing with Diffusion Model
July 2, 2025
Autori: Yukang Cao, Chenyang Si, Jinghao Wang, Ziwei Liu
cs.AI
Abstract
Presentiamo FreeMorph, il primo metodo per il morphing di immagini che non richiede tuning e che si adatta a input con semantiche o layout diversi. A differenza dei metodi esistenti che si basano sul fine-tuning di modelli di diffusione pre-addestrati e sono limitati da vincoli temporali e discrepanze semantiche/layout, FreeMorph offre un morphing di immagini ad alta fedeltà senza necessitare di addestramento per ogni istanza. Nonostante la loro efficienza e potenziale, i metodi senza tuning affrontano sfide nel mantenere risultati di alta qualità a causa della natura non lineare del processo di denoising multi-step e dei bias ereditati dal modello di diffusione pre-addestrato. In questo articolo, introduciamo FreeMorph per affrontare queste sfide integrando due innovazioni chiave. 1) Proponiamo innanzitutto un design di interpolazione sferica guidata che incorpora una guida esplicita dalle immagini di input modificando i moduli di self-attention, affrontando così la perdita di identità e garantendo transizioni direzionali lungo la sequenza generata. 2) Introduciamo inoltre una tendenza di variazione orientata ai passi che miscela i moduli di self-attention derivati da ciascuna immagine di input per ottenere transizioni controllate e coerenti che rispettano entrambi gli input. Le nostre valutazioni estensive dimostrano che FreeMorph supera i metodi esistenti, essendo da 10x a 50x più veloce e stabilendo un nuovo stato dell'arte per il morphing di immagini.
English
We present FreeMorph, the first tuning-free method for image morphing that
accommodates inputs with different semantics or layouts. Unlike existing
methods that rely on finetuning pre-trained diffusion models and are limited by
time constraints and semantic/layout discrepancies, FreeMorph delivers
high-fidelity image morphing without requiring per-instance training. Despite
their efficiency and potential, tuning-free methods face challenges in
maintaining high-quality results due to the non-linear nature of the multi-step
denoising process and biases inherited from the pre-trained diffusion model. In
this paper, we introduce FreeMorph to address these challenges by integrating
two key innovations. 1) We first propose a guidance-aware spherical
interpolation design that incorporates explicit guidance from the input images
by modifying the self-attention modules, thereby addressing identity loss and
ensuring directional transitions throughout the generated sequence. 2) We
further introduce a step-oriented variation trend that blends self-attention
modules derived from each input image to achieve controlled and consistent
transitions that respect both inputs. Our extensive evaluations demonstrate
that FreeMorph outperforms existing methods, being 10x ~ 50x faster and
establishing a new state-of-the-art for image morphing.