ChatPaper.aiChatPaper

FreeMorph: Беспараметрическое обобщённое морфирование изображений с использованием диффузионной модели

FreeMorph: Tuning-Free Generalized Image Morphing with Diffusion Model

July 2, 2025
Авторы: Yukang Cao, Chenyang Si, Jinghao Wang, Ziwei Liu
cs.AI

Аннотация

Мы представляем FreeMorph — первый метод морфинга изображений, не требующий тонкой настройки и способный работать с входными данными, имеющими различную семантику или компоновку. В отличие от существующих методов, которые полагаются на дообучение предварительно обученных диффузионных моделей и ограничены временными рамками и различиями в семантике/компоновке, FreeMorph обеспечивает высококачественный морфинг изображений без необходимости обучения для каждого отдельного случая. Несмотря на свою эффективность и потенциал, методы без тонкой настройки сталкиваются с трудностями в поддержании высокого качества результатов из-за нелинейной природы многошагового процесса удаления шума и предубеждений, унаследованных от предварительно обученной диффузионной модели. В данной статье мы представляем FreeMorph, который решает эти проблемы за счет интеграции двух ключевых инноваций. 1) Мы предлагаем дизайн сферической интерполяции, учитывающей управление, который включает явные указания от входных изображений путем модификации модулей самовнимания, тем самым устраняя потерю идентичности и обеспечивая направленные переходы на протяжении всей генерируемой последовательности. 2) Мы также вводим тенденцию вариации, ориентированную на шаги, которая смешивает модули самовнимания, полученные из каждого входного изображения, для достижения контролируемых и согласованных переходов, учитывающих оба входных изображения. Наши обширные оценки показывают, что FreeMorph превосходит существующие методы, будучи в 10–50 раз быстрее и устанавливая новый эталон в области морфинга изображений.
English
We present FreeMorph, the first tuning-free method for image morphing that accommodates inputs with different semantics or layouts. Unlike existing methods that rely on finetuning pre-trained diffusion models and are limited by time constraints and semantic/layout discrepancies, FreeMorph delivers high-fidelity image morphing without requiring per-instance training. Despite their efficiency and potential, tuning-free methods face challenges in maintaining high-quality results due to the non-linear nature of the multi-step denoising process and biases inherited from the pre-trained diffusion model. In this paper, we introduce FreeMorph to address these challenges by integrating two key innovations. 1) We first propose a guidance-aware spherical interpolation design that incorporates explicit guidance from the input images by modifying the self-attention modules, thereby addressing identity loss and ensuring directional transitions throughout the generated sequence. 2) We further introduce a step-oriented variation trend that blends self-attention modules derived from each input image to achieve controlled and consistent transitions that respect both inputs. Our extensive evaluations demonstrate that FreeMorph outperforms existing methods, being 10x ~ 50x faster and establishing a new state-of-the-art for image morphing.
PDF121July 3, 2025