FreeMorph: 확산 모델을 활용한 튜닝 없이 일반화된 이미지 모핑
FreeMorph: Tuning-Free Generalized Image Morphing with Diffusion Model
July 2, 2025
저자: Yukang Cao, Chenyang Si, Jinghao Wang, Ziwei Liu
cs.AI
초록
본 논문에서는 서로 다른 의미론(semantics) 또는 레이아웃을 가진 입력을 처리할 수 있는 최초의 튜닝 프리(tuning-free) 이미지 모핑(morphing) 방법인 FreeMorph를 소개한다. 기존 방법들은 사전 학습된 확산 모델(diffusion model)을 미세 조정(finetuning)하는 데 의존하며, 시간적 제약과 의미론/레이아웃 불일치로 인해 한계가 있었다. 반면, FreeMorph는 인스턴스별 학습 없이도 고품질의 이미지 모핑을 제공한다. 튜닝 프리 방법은 효율성과 잠재력에도 불구하고, 다단계 비선형 디노이징(denoising) 과정과 사전 학습된 확산 모델에서 상속된 편향으로 인해 고품질 결과를 유지하는 데 어려움을 겪는다. 본 논문에서는 이러한 문제를 해결하기 위해 두 가지 핵심 혁신을 통합한 FreeMorph를 제안한다. 첫째, 입력 이미지로부터 명시적 지침을 포함하는 가이던스 인식 구면 보간(guidance-aware spherical interpolation) 설계를 제안한다. 이를 위해 자기 주의(self-attention) 모듈을 수정하여 아이덴티티 손실(identity loss)을 해결하고 생성된 시퀀스 전반에 걸쳐 방향성 전환을 보장한다. 둘째, 각 입력 이미지에서 도출된 자기 주의 모듈을 혼합하여 두 입력을 모두 존중하는 제어된 일관된 전환을 달성하는 단계 지향 변동 경향(step-oriented variation trend)을 도입한다. 광범위한 평가를 통해 FreeMorph가 기존 방법들을 능가하며, 10배에서 50배 더 빠른 속도로 이미지 모핑 분야의 새로운 최첨단 기술을 확립함을 입증한다.
English
We present FreeMorph, the first tuning-free method for image morphing that
accommodates inputs with different semantics or layouts. Unlike existing
methods that rely on finetuning pre-trained diffusion models and are limited by
time constraints and semantic/layout discrepancies, FreeMorph delivers
high-fidelity image morphing without requiring per-instance training. Despite
their efficiency and potential, tuning-free methods face challenges in
maintaining high-quality results due to the non-linear nature of the multi-step
denoising process and biases inherited from the pre-trained diffusion model. In
this paper, we introduce FreeMorph to address these challenges by integrating
two key innovations. 1) We first propose a guidance-aware spherical
interpolation design that incorporates explicit guidance from the input images
by modifying the self-attention modules, thereby addressing identity loss and
ensuring directional transitions throughout the generated sequence. 2) We
further introduce a step-oriented variation trend that blends self-attention
modules derived from each input image to achieve controlled and consistent
transitions that respect both inputs. Our extensive evaluations demonstrate
that FreeMorph outperforms existing methods, being 10x ~ 50x faster and
establishing a new state-of-the-art for image morphing.