ChatPaper.aiChatPaper

ReNoise : Inversion d'images réelles par bruitage itératif

ReNoise: Real Image Inversion Through Iterative Noising

March 21, 2024
Auteurs: Daniel Garibi, Or Patashnik, Andrey Voynov, Hadar Averbuch-Elor, Daniel Cohen-Or
cs.AI

Résumé

Les récentes avancées dans les modèles de diffusion guidés par texte ont débloqué des capacités puissantes de manipulation d'images. Cependant, l'application de ces méthodes à des images réelles nécessite l'inversion des images dans le domaine du modèle de diffusion pré-entraîné. Atteindre une inversion fidèle reste un défi, en particulier pour les modèles plus récents entraînés à générer des images avec un petit nombre d'étapes de débruitage. Dans ce travail, nous introduisons une méthode d'inversion avec un rapport qualité-opération élevé, améliorant la précision de reconstruction sans augmenter le nombre d'opérations. En s'appuyant sur l'inversion du processus d'échantillonnage de diffusion, notre méthode utilise un mécanisme de rebruitage itératif à chaque étape d'échantillonnage d'inversion. Ce mécanisme affine l'approximation d'un point prédit le long de la trajectoire de diffusion directe, en appliquant itérativement le modèle de diffusion pré-entraîné et en moyennant ces prédictions. Nous évaluons la performance de notre technique ReNoise en utilisant divers algorithmes d'échantillonnage et modèles, y compris les récents modèles de diffusion accélérés. À travers des évaluations et comparaisons approfondies, nous montrons son efficacité en termes de précision et de vitesse. De plus, nous confirmons que notre méthode préserve l'éditabilité en démontrant l'édition d'images réelles guidée par texte.
English
Recent advancements in text-guided diffusion models have unlocked powerful image manipulation capabilities. However, applying these methods to real images necessitates the inversion of the images into the domain of the pretrained diffusion model. Achieving faithful inversion remains a challenge, particularly for more recent models trained to generate images with a small number of denoising steps. In this work, we introduce an inversion method with a high quality-to-operation ratio, enhancing reconstruction accuracy without increasing the number of operations. Building on reversing the diffusion sampling process, our method employs an iterative renoising mechanism at each inversion sampling step. This mechanism refines the approximation of a predicted point along the forward diffusion trajectory, by iteratively applying the pretrained diffusion model, and averaging these predictions. We evaluate the performance of our ReNoise technique using various sampling algorithms and models, including recent accelerated diffusion models. Through comprehensive evaluations and comparisons, we show its effectiveness in terms of both accuracy and speed. Furthermore, we confirm that our method preserves editability by demonstrating text-driven image editing on real images.

Summary

AI-Generated Summary

PDF221December 15, 2024