FreeMorph: Morfología Generalizada de Imágenes sin Ajustes con Modelo de Difusión
FreeMorph: Tuning-Free Generalized Image Morphing with Diffusion Model
July 2, 2025
Autores: Yukang Cao, Chenyang Si, Jinghao Wang, Ziwei Liu
cs.AI
Resumen
Presentamos FreeMorph, el primer método de morfología de imágenes sin ajuste que admite entradas con diferentes semánticas o diseños. A diferencia de los métodos existentes que dependen del ajuste fino de modelos de difusión preentrenados y están limitados por restricciones de tiempo y discrepancias semánticas/de diseño, FreeMorph ofrece morfología de imágenes de alta fidelidad sin requerir entrenamiento por instancia. A pesar de su eficiencia y potencial, los métodos sin ajuste enfrentan desafíos para mantener resultados de alta calidad debido a la naturaleza no lineal del proceso de eliminación de ruido en múltiples pasos y los sesgos heredados del modelo de difusión preentrenado. En este artículo, introducimos FreeMorph para abordar estos desafíos mediante la integración de dos innovaciones clave. 1) Primero proponemos un diseño de interpolación esférica consciente de la guía que incorpora guía explícita de las imágenes de entrada modificando los módulos de autoatención, abordando así la pérdida de identidad y asegurando transiciones direccionales a lo largo de la secuencia generada. 2) Además, introducimos una tendencia de variación orientada a pasos que combina módulos de autoatención derivados de cada imagen de entrada para lograr transiciones controladas y consistentes que respeten ambas entradas. Nuestras evaluaciones exhaustivas demuestran que FreeMorph supera a los métodos existentes, siendo de 10x a 50x más rápido y estableciendo un nuevo estado del arte en morfología de imágenes.
English
We present FreeMorph, the first tuning-free method for image morphing that
accommodates inputs with different semantics or layouts. Unlike existing
methods that rely on finetuning pre-trained diffusion models and are limited by
time constraints and semantic/layout discrepancies, FreeMorph delivers
high-fidelity image morphing without requiring per-instance training. Despite
their efficiency and potential, tuning-free methods face challenges in
maintaining high-quality results due to the non-linear nature of the multi-step
denoising process and biases inherited from the pre-trained diffusion model. In
this paper, we introduce FreeMorph to address these challenges by integrating
two key innovations. 1) We first propose a guidance-aware spherical
interpolation design that incorporates explicit guidance from the input images
by modifying the self-attention modules, thereby addressing identity loss and
ensuring directional transitions throughout the generated sequence. 2) We
further introduce a step-oriented variation trend that blends self-attention
modules derived from each input image to achieve controlled and consistent
transitions that respect both inputs. Our extensive evaluations demonstrate
that FreeMorph outperforms existing methods, being 10x ~ 50x faster and
establishing a new state-of-the-art for image morphing.