FreeMorph: Morfologia Generalizada de Imagens sem Ajuste com Modelo de Difusão
FreeMorph: Tuning-Free Generalized Image Morphing with Diffusion Model
July 2, 2025
Autores: Yukang Cao, Chenyang Si, Jinghao Wang, Ziwei Liu
cs.AI
Resumo
Apresentamos o FreeMorph, o primeiro método de morphing de imagens sem ajuste fino que acomoda entradas com diferentes semânticas ou layouts. Diferente dos métodos existentes que dependem do ajuste fino de modelos de difusão pré-treinados e são limitados por restrições de tempo e discrepâncias semânticas/de layout, o FreeMorph oferece morphing de imagens de alta fidelidade sem exigir treinamento por instância. Apesar de sua eficiência e potencial, métodos sem ajuste fino enfrentam desafios em manter resultados de alta qualidade devido à natureza não linear do processo de remoção de ruído em múltiplas etapas e aos vieses herdados do modelo de difusão pré-treinado. Neste artigo, introduzimos o FreeMorph para abordar esses desafios ao integrar duas inovações principais. 1) Primeiro, propomos um design de interpolação esférica guiada que incorpora orientação explícita das imagens de entrada ao modificar os módulos de self-attention, abordando assim a perda de identidade e garantindo transições direcionais ao longo da sequência gerada. 2) Além disso, introduzimos uma tendência de variação orientada por etapas que mescla módulos de self-attention derivados de cada imagem de entrada para alcançar transições controladas e consistentes que respeitam ambas as entradas. Nossas extensivas avaliações demonstram que o FreeMorph supera os métodos existentes, sendo de 10x a 50x mais rápido e estabelecendo um novo estado da arte para morphing de imagens.
English
We present FreeMorph, the first tuning-free method for image morphing that
accommodates inputs with different semantics or layouts. Unlike existing
methods that rely on finetuning pre-trained diffusion models and are limited by
time constraints and semantic/layout discrepancies, FreeMorph delivers
high-fidelity image morphing without requiring per-instance training. Despite
their efficiency and potential, tuning-free methods face challenges in
maintaining high-quality results due to the non-linear nature of the multi-step
denoising process and biases inherited from the pre-trained diffusion model. In
this paper, we introduce FreeMorph to address these challenges by integrating
two key innovations. 1) We first propose a guidance-aware spherical
interpolation design that incorporates explicit guidance from the input images
by modifying the self-attention modules, thereby addressing identity loss and
ensuring directional transitions throughout the generated sequence. 2) We
further introduce a step-oriented variation trend that blends self-attention
modules derived from each input image to achieve controlled and consistent
transitions that respect both inputs. Our extensive evaluations demonstrate
that FreeMorph outperforms existing methods, being 10x ~ 50x faster and
establishing a new state-of-the-art for image morphing.