ReNoise: Inversión de imágenes reales mediante adición iterativa de ruido

Resumen

Los recientes avances en los modelos de difusión guiados por texto han desbloqueado potentes capacidades de manipulación de imágenes. Sin embargo, aplicar estos métodos a imágenes reales requiere invertir las imágenes en el dominio del modelo de difusión preentrenado. Lograr una inversión fiel sigue siendo un desafío, particularmente para los modelos más recientes entrenados para generar imágenes con un número reducido de pasos de eliminación de ruido. En este trabajo, presentamos un método de inversión con una alta relación calidad-operación, mejorando la precisión de la reconstrucción sin aumentar el número de operaciones. Basándonos en la inversión del proceso de muestreo de difusión, nuestro método emplea un mecanismo iterativo de re-ruido en cada paso de muestreo de inversión. Este mecanismo refina la aproximación de un punto predicho a lo largo de la trayectoria de difusión hacia adelante, aplicando iterativamente el modelo de difusión preentrenado y promediando estas predicciones. Evaluamos el rendimiento de nuestra técnica ReNoise utilizando varios algoritmos de muestreo y modelos, incluyendo modelos de difusión acelerados recientes. A través de evaluaciones y comparaciones exhaustivas, demostramos su efectividad tanto en precisión como en velocidad. Además, confirmamos que nuestro método preserva la capacidad de edición mediante la demostración de edición de imágenes impulsada por texto en imágenes reales.

English

Recent advancements in text-guided diffusion models have unlocked powerful image manipulation capabilities. However, applying these methods to real images necessitates the inversion of the images into the domain of the pretrained diffusion model. Achieving faithful inversion remains a challenge, particularly for more recent models trained to generate images with a small number of denoising steps. In this work, we introduce an inversion method with a high quality-to-operation ratio, enhancing reconstruction accuracy without increasing the number of operations. Building on reversing the diffusion sampling process, our method employs an iterative renoising mechanism at each inversion sampling step. This mechanism refines the approximation of a predicted point along the forward diffusion trajectory, by iteratively applying the pretrained diffusion model, and averaging these predictions. We evaluate the performance of our ReNoise technique using various sampling algorithms and models, including recent accelerated diffusion models. Through comprehensive evaluations and comparisons, we show its effectiveness in terms of both accuracy and speed. Furthermore, we confirm that our method preserves editability by demonstrating text-driven image editing on real images.

ReNoise: Inversión de imágenes reales mediante adición iterativa de ruido

ReNoise: Real Image Inversion Through Iterative Noising

Resumen

Support