ReNoise: Realistische Afbeeldinginversie via Iteratieve Ruisgeneratie
ReNoise: Real Image Inversion Through Iterative Noising
March 21, 2024
Auteurs: Daniel Garibi, Or Patashnik, Andrey Voynov, Hadar Averbuch-Elor, Daniel Cohen-Or
cs.AI
Samenvatting
Recente vooruitgang in tekstgeleide diffusiemodellen heeft krachtige
beeldmanipulatiemogelijkheden ontsloten. Het toepassen van deze methoden op
echte afbeeldingen vereist echter de inversie van de afbeeldingen naar het domein
van het vooraf getrainde diffusiemodel. Het bereiken van een nauwkeurige inversie
blijft een uitdaging, vooral voor recentere modellen die zijn getraind om
afbeeldingen te genereren met een klein aantal denoiseringsstappen. In dit werk
introduceren we een inversiemethode met een hoge kwaliteit-tot-operatieverhouding,
die de reconstructienauwkeurigheid verbetert zonder het aantal operaties te
verhogen. Gebaseerd op het omkeren van het diffusie-bemonsteringsproces, maakt
onze methode gebruik van een iteratief herruisingsmechanisme bij elke
inversiebemonsteringsstap. Dit mechanisme verfijnt de benadering van een
voorspeld punt langs de voorwaartse diffusietrajectorie, door iteratief het
vooraf getrainde diffusiemodel toe te passen en deze voorspellingen te middelen.
We evalueren de prestaties van onze ReNoise-techniek met behulp van verschillende
bemonsteringsalgoritmen en modellen, waaronder recente versnelde diffusiemodellen.
Door middel van uitgebreide evaluaties en vergelijkingen tonen we de effectiviteit
aan in termen van zowel nauwkeurigheid als snelheid. Bovendien bevestigen we dat
onze methode de bewerkbaarheid behoudt door tekstgestuurde beeldbewerking op
echte afbeeldingen te demonstreren.
English
Recent advancements in text-guided diffusion models have unlocked powerful
image manipulation capabilities. However, applying these methods to real images
necessitates the inversion of the images into the domain of the pretrained
diffusion model. Achieving faithful inversion remains a challenge, particularly
for more recent models trained to generate images with a small number of
denoising steps. In this work, we introduce an inversion method with a high
quality-to-operation ratio, enhancing reconstruction accuracy without
increasing the number of operations. Building on reversing the diffusion
sampling process, our method employs an iterative renoising mechanism at each
inversion sampling step. This mechanism refines the approximation of a
predicted point along the forward diffusion trajectory, by iteratively applying
the pretrained diffusion model, and averaging these predictions. We evaluate
the performance of our ReNoise technique using various sampling algorithms and
models, including recent accelerated diffusion models. Through comprehensive
evaluations and comparisons, we show its effectiveness in terms of both
accuracy and speed. Furthermore, we confirm that our method preserves
editability by demonstrating text-driven image editing on real images.