SyncDiffusion: Согласованный монтаж через синхронизированные совместные диффузии
SyncDiffusion: Coherent Montage via Synchronized Joint Diffusions
June 8, 2023
Авторы: Yuseung Lee, Kunho Kim, Hyunjin Kim, Minhyuk Sung
cs.AI
Аннотация
Замечательные возможности предобученных моделей диффузии изображений были использованы не только для генерации изображений фиксированного размера, но и для создания панорам. Однако простое сшивание нескольких изображений часто приводит к видимым швам. Современные методы пытаются решить эту проблему, выполняя совместную диффузию в нескольких окнах и усредняя латентные признаки в перекрывающихся областях. Однако эти подходы, направленные на создание бесшовных монтажей, часто приводят к несогласованным результатам, смешивая разные сцены в одном изображении. Чтобы преодолеть это ограничение, мы предлагаем SyncDiffusion — модуль plug-and-play, который синхронизирует несколько процессов диффузии через градиентный спуск на основе потери перцептивного сходства. В частности, мы вычисляем градиент перцептивной потери, используя предсказанные очищенные от шума изображения на каждом шаге денизинга, что обеспечивает значимое руководство для достижения согласованных монтажей. Наши экспериментальные результаты показывают, что наш метод создает значительно более согласованные результаты по сравнению с предыдущими методами (66,35% против 33,65% в нашем пользовательском исследовании), сохраняя при этом точность (оцененную с помощью GIQA) и соответствие входному запросу (измеренное с помощью CLIP score).
English
The remarkable capabilities of pretrained image diffusion models have been
utilized not only for generating fixed-size images but also for creating
panoramas. However, naive stitching of multiple images often results in visible
seams. Recent techniques have attempted to address this issue by performing
joint diffusions in multiple windows and averaging latent features in
overlapping regions. However, these approaches, which focus on seamless montage
generation, often yield incoherent outputs by blending different scenes within
a single image. To overcome this limitation, we propose SyncDiffusion, a
plug-and-play module that synchronizes multiple diffusions through gradient
descent from a perceptual similarity loss. Specifically, we compute the
gradient of the perceptual loss using the predicted denoised images at each
denoising step, providing meaningful guidance for achieving coherent montages.
Our experimental results demonstrate that our method produces significantly
more coherent outputs compared to previous methods (66.35% vs. 33.65% in our
user study) while still maintaining fidelity (as assessed by GIQA) and
compatibility with the input prompt (as measured by CLIP score).