ReNoise: Echte Bildumkehr durch iterative Rauscherzeugung
ReNoise: Real Image Inversion Through Iterative Noising
March 21, 2024
Autoren: Daniel Garibi, Or Patashnik, Andrey Voynov, Hadar Averbuch-Elor, Daniel Cohen-Or
cs.AI
Zusammenfassung
In jüngster Zeit haben Fortschritte bei textgesteuerten Diffusionsmodellen leistungsstarke Bildmanipulationsfähigkeiten freigesetzt. Die Anwendung dieser Methoden auf echte Bilder erfordert jedoch die Umkehrung der Bilder in den Bereich des vortrainierten Diffusionsmodells. Die Erreichung einer treuen Umkehrung bleibt eine Herausforderung, insbesondere für neuere Modelle, die darauf trainiert sind, Bilder mit einer geringen Anzahl von Rauschunterdrückungsschritten zu generieren. In dieser Arbeit stellen wir eine Umkehrungsmethode mit einem hohen Qualitäts-zu-Operationen-Verhältnis vor, die die Rekonstruktionsgenauigkeit verbessert, ohne die Anzahl der Operationen zu erhöhen. Basierend auf der Umkehrung des Diffusionsabtastprozesses verwendet unsere Methode einen iterativen Rauschunterdrückungsmechanismus bei jedem Umkehrungsschritt. Dieser Mechanismus verfeinert die Approximation eines vorhergesagten Punktes entlang der vorwärts gerichteten Diffusionstrajectorie, indem er das vortrainierte Diffusionsmodell iterativ anwendet und diese Vorhersagen durchschnittet. Wir bewerten die Leistung unserer ReNoise-Technik unter Verwendung verschiedener Abtastalgorithmen und Modelle, einschließlich neuer beschleunigter Diffusionsmodelle. Durch umfassende Bewertungen und Vergleiche zeigen wir deren Wirksamkeit hinsichtlich Genauigkeit und Geschwindigkeit. Darüber hinaus bestätigen wir, dass unsere Methode die Bearbeitbarkeit bewahrt, indem wir textgesteuerte Bildbearbeitung an echten Bildern demonstrieren.
English
Recent advancements in text-guided diffusion models have unlocked powerful
image manipulation capabilities. However, applying these methods to real images
necessitates the inversion of the images into the domain of the pretrained
diffusion model. Achieving faithful inversion remains a challenge, particularly
for more recent models trained to generate images with a small number of
denoising steps. In this work, we introduce an inversion method with a high
quality-to-operation ratio, enhancing reconstruction accuracy without
increasing the number of operations. Building on reversing the diffusion
sampling process, our method employs an iterative renoising mechanism at each
inversion sampling step. This mechanism refines the approximation of a
predicted point along the forward diffusion trajectory, by iteratively applying
the pretrained diffusion model, and averaging these predictions. We evaluate
the performance of our ReNoise technique using various sampling algorithms and
models, including recent accelerated diffusion models. Through comprehensive
evaluations and comparisons, we show its effectiveness in terms of both
accuracy and speed. Furthermore, we confirm that our method preserves
editability by demonstrating text-driven image editing on real images.Summary
AI-Generated Summary