ReNoise: Реальное инвертирование изображения через итеративное добавление шума.
ReNoise: Real Image Inversion Through Iterative Noising
March 21, 2024
Авторы: Daniel Garibi, Or Patashnik, Andrey Voynov, Hadar Averbuch-Elor, Daniel Cohen-Or
cs.AI
Аннотация
Недавние достижения в моделях диффузии, управляемых текстом, разблокировали мощные возможности манипулирования изображениями. Однако применение этих методов к реальным изображениям требует инверсии изображений в область предварительно обученной модели диффузии. Достижение точной инверсии остается вызовом, особенно для более новых моделей, обученных генерировать изображения с небольшим количеством шагов денойзинга. В данной работе мы представляем метод инверсии с высоким соотношением качества к операциям, улучшающий точность реконструкции без увеличения количества операций. Основываясь на обращении процесса диффузионной выборки, наш метод использует итеративный механизм повторного денойзинга на каждом шаге выборки инверсии. Этот механизм улучшает приближение предсказанной точки вдоль траектории прямой диффузии, путем итеративного применения предварительно обученной модели диффузии и усреднения этих предсказаний. Мы оцениваем производительность нашего метода ReNoise, используя различные алгоритмы выборки и модели, включая недавние ускоренные модели диффузии. Через комплексные оценки и сравнения мы демонстрируем его эффективность с точки зрения как точности, так и скорости. Более того, мы подтверждаем, что наш метод сохраняет возможность редактирования, демонстрируя редактирование изображений под управлением текста на реальных изображениях.
English
Recent advancements in text-guided diffusion models have unlocked powerful
image manipulation capabilities. However, applying these methods to real images
necessitates the inversion of the images into the domain of the pretrained
diffusion model. Achieving faithful inversion remains a challenge, particularly
for more recent models trained to generate images with a small number of
denoising steps. In this work, we introduce an inversion method with a high
quality-to-operation ratio, enhancing reconstruction accuracy without
increasing the number of operations. Building on reversing the diffusion
sampling process, our method employs an iterative renoising mechanism at each
inversion sampling step. This mechanism refines the approximation of a
predicted point along the forward diffusion trajectory, by iteratively applying
the pretrained diffusion model, and averaging these predictions. We evaluate
the performance of our ReNoise technique using various sampling algorithms and
models, including recent accelerated diffusion models. Through comprehensive
evaluations and comparisons, we show its effectiveness in terms of both
accuracy and speed. Furthermore, we confirm that our method preserves
editability by demonstrating text-driven image editing on real images.Summary
AI-Generated Summary