ReNoise: Inversión de imágenes reales mediante adición iterativa de ruido
ReNoise: Real Image Inversion Through Iterative Noising
March 21, 2024
Autores: Daniel Garibi, Or Patashnik, Andrey Voynov, Hadar Averbuch-Elor, Daniel Cohen-Or
cs.AI
Resumen
Los recientes avances en los modelos de difusión guiados por texto han desbloqueado potentes capacidades de manipulación de imágenes. Sin embargo, aplicar estos métodos a imágenes reales requiere invertir las imágenes en el dominio del modelo de difusión preentrenado. Lograr una inversión fiel sigue siendo un desafío, particularmente para los modelos más recientes entrenados para generar imágenes con un número reducido de pasos de eliminación de ruido. En este trabajo, presentamos un método de inversión con una alta relación calidad-operación, mejorando la precisión de la reconstrucción sin aumentar el número de operaciones. Basándonos en la inversión del proceso de muestreo de difusión, nuestro método emplea un mecanismo iterativo de re-ruido en cada paso de muestreo de inversión. Este mecanismo refina la aproximación de un punto predicho a lo largo de la trayectoria de difusión hacia adelante, aplicando iterativamente el modelo de difusión preentrenado y promediando estas predicciones. Evaluamos el rendimiento de nuestra técnica ReNoise utilizando varios algoritmos de muestreo y modelos, incluyendo modelos de difusión acelerados recientes. A través de evaluaciones y comparaciones exhaustivas, demostramos su efectividad tanto en precisión como en velocidad. Además, confirmamos que nuestro método preserva la capacidad de edición mediante la demostración de edición de imágenes impulsada por texto en imágenes reales.
English
Recent advancements in text-guided diffusion models have unlocked powerful
image manipulation capabilities. However, applying these methods to real images
necessitates the inversion of the images into the domain of the pretrained
diffusion model. Achieving faithful inversion remains a challenge, particularly
for more recent models trained to generate images with a small number of
denoising steps. In this work, we introduce an inversion method with a high
quality-to-operation ratio, enhancing reconstruction accuracy without
increasing the number of operations. Building on reversing the diffusion
sampling process, our method employs an iterative renoising mechanism at each
inversion sampling step. This mechanism refines the approximation of a
predicted point along the forward diffusion trajectory, by iteratively applying
the pretrained diffusion model, and averaging these predictions. We evaluate
the performance of our ReNoise technique using various sampling algorithms and
models, including recent accelerated diffusion models. Through comprehensive
evaluations and comparisons, we show its effectiveness in terms of both
accuracy and speed. Furthermore, we confirm that our method preserves
editability by demonstrating text-driven image editing on real images.Summary
AI-Generated Summary