ChatPaper.aiChatPaper

FreeMorph : Morphing généralisé d'images sans réglage avec un modèle de diffusion

FreeMorph: Tuning-Free Generalized Image Morphing with Diffusion Model

July 2, 2025
Auteurs: Yukang Cao, Chenyang Si, Jinghao Wang, Ziwei Liu
cs.AI

Résumé

Nous présentons FreeMorph, la première méthode de morphing d’images sans réglage qui s’adapte à des entrées ayant des sémantiques ou des dispositions différentes. Contrairement aux méthodes existantes qui reposent sur le réglage fin de modèles de diffusion pré-entraînés et sont limitées par des contraintes temporelles et des divergences sémantiques ou de disposition, FreeMorph offre un morphing d’images de haute fidélité sans nécessiter d’entraînement par instance. Malgré leur efficacité et leur potentiel, les méthodes sans réglage rencontrent des difficultés à maintenir des résultats de haute qualité en raison de la nature non linéaire du processus de débruitage multi-étapes et des biais hérités du modèle de diffusion pré-entraîné. Dans cet article, nous introduisons FreeMorph pour relever ces défis en intégrant deux innovations clés. 1) Nous proposons d’abord une conception d’interpolation sphérique guidée qui intègre des indications explicites des images d’entrée en modifiant les modules d’auto-attention, permettant ainsi de résoudre la perte d’identité et d’assurer des transitions directionnelles tout au long de la séquence générée. 2) Nous introduisons ensuite une tendance de variation orientée par étapes qui mélange les modules d’auto-attention dérivés de chaque image d’entrée pour obtenir des transitions contrôlées et cohérentes respectant les deux entrées. Nos évaluations approfondies démontrent que FreeMorph surpasse les méthodes existantes, étant 10x à 50x plus rapide et établissant un nouvel état de l’art pour le morphing d’images.
English
We present FreeMorph, the first tuning-free method for image morphing that accommodates inputs with different semantics or layouts. Unlike existing methods that rely on finetuning pre-trained diffusion models and are limited by time constraints and semantic/layout discrepancies, FreeMorph delivers high-fidelity image morphing without requiring per-instance training. Despite their efficiency and potential, tuning-free methods face challenges in maintaining high-quality results due to the non-linear nature of the multi-step denoising process and biases inherited from the pre-trained diffusion model. In this paper, we introduce FreeMorph to address these challenges by integrating two key innovations. 1) We first propose a guidance-aware spherical interpolation design that incorporates explicit guidance from the input images by modifying the self-attention modules, thereby addressing identity loss and ensuring directional transitions throughout the generated sequence. 2) We further introduce a step-oriented variation trend that blends self-attention modules derived from each input image to achieve controlled and consistent transitions that respect both inputs. Our extensive evaluations demonstrate that FreeMorph outperforms existing methods, being 10x ~ 50x faster and establishing a new state-of-the-art for image morphing.
PDF111July 3, 2025