Реальные вариации изображений через выравнивание цепочки инверсии диффузии
Real-World Image Variation by Aligning Diffusion Inversion Chain
May 30, 2023
Авторы: Yuechen Zhang, Jinbo Xing, Eric Lo, Jiaya Jia
cs.AI
Аннотация
Последние достижения в области диффузионных моделей позволили генерировать высококачественные изображения с использованием текстовых запросов. Однако существует разрыв между сгенерированными изображениями и изображениями из реального мира, что создает сложности в создании высококачественных вариаций реальных изображений. Наше исследование показывает, что этот разрыв обусловлен различиями в распределении латентных переменных в различных процессах диффузии. Для решения этой проблемы мы предлагаем новый подход к генерации, названный Real-world Image Variation by ALignment (RIVAL), который использует диффузионные модели для создания вариаций изображений на основе одного образца. Наш подход улучшает качество генерации вариаций за счет согласования процесса генерации изображений с цепочкой инверсии исходного изображения. В частности, мы демонстрируем, что пошаговое согласование распределения латентных переменных является ключевым для создания высококачественных вариаций. Для достижения этого мы разработали механизм инъекции кросс-изображенийого self-attention для взаимодействия признаков и пошаговую нормализацию распределения для согласования латентных признаков. Включение этих процессов согласования в диффузионную модель позволяет RIVAL генерировать высококачественные вариации изображений без дополнительной оптимизации параметров. Результаты экспериментов показывают, что наш подход превосходит существующие методы по сходству с семантическими условиями и перцептивному качеству. Более того, этот обобщенный подход может быть легко применен к другим задачам генерации на основе диффузии, таким как генерация изображений на основе текста с условием изображения и восстановление изображений на основе примеров.
English
Recent diffusion model advancements have enabled high-fidelity images to be
generated using text prompts. However, a domain gap exists between generated
images and real-world images, which poses a challenge in generating
high-quality variations of real-world images. Our investigation uncovers that
this domain gap originates from a latents' distribution gap in different
diffusion processes. To address this issue, we propose a novel inference
pipeline called Real-world Image Variation by ALignment (RIVAL) that utilizes
diffusion models to generate image variations from a single image exemplar. Our
pipeline enhances the generation quality of image variations by aligning the
image generation process to the source image's inversion chain. Specifically,
we demonstrate that step-wise latent distribution alignment is essential for
generating high-quality variations. To attain this, we design a cross-image
self-attention injection for feature interaction and a step-wise distribution
normalization to align the latent features. Incorporating these alignment
processes into a diffusion model allows RIVAL to generate high-quality image
variations without further parameter optimization. Our experimental results
demonstrate that our proposed approach outperforms existing methods with
respect to semantic-condition similarity and perceptual quality. Furthermore,
this generalized inference pipeline can be easily applied to other
diffusion-based generation tasks, such as image-conditioned text-to-image
generation and example-based image inpainting.