Guide-and-Rescale: Zelfgeleidingsmechanisme voor Effectieve Afstemmingsvrije Bewerking van Echte Afbeeldingen
Guide-and-Rescale: Self-Guidance Mechanism for Effective Tuning-Free Real Image Editing
September 2, 2024
Auteurs: Vadim Titov, Madina Khalmatova, Alexandra Ivanova, Dmitry Vetrov, Aibek Alanov
cs.AI
Samenvatting
Ondanks recente vooruitgang in grootschalige tekst-naar-beeld generatieve modellen, blijft het manipuleren van echte afbeeldingen met deze modellen een uitdagend probleem. De belangrijkste beperkingen van bestaande bewerkingsmethoden zijn dat ze ofwel niet consistent presteren bij een breed scala aan afbeeldingsbewerkingen, ofwel tijdrovende hyperparameterafstemming of fine-tuning van het diffusiemodel vereisen om de afbeeldingsspecifieke uitstraling van de invoerafbeelding te behouden. Wij stellen een nieuwe aanpak voor die is gebaseerd op een aangepast diffusie-steekproefproces via het guidance-mechanisme. In dit werk onderzoeken we de zelf-guidance techniek om de algehele structuur van de invoerafbeelding en het uiterlijk van lokale regio's die niet bewerkt moeten worden, te behouden. In het bijzonder introduceren we expliciet lay-outbehoudende energiefuncties die gericht zijn op het behoud van lokale en globale structuren van de bronafbeelding. Daarnaast stellen we een ruisherschalingsmechanisme voor dat het mogelijk maakt de ruisverdeling te behouden door de normen van classifier-free guidance en onze voorgestelde guiders tijdens de generatie in evenwicht te brengen. Een dergelijke sturende aanpak vereist geen fine-tuning van het diffusiemodel en een exact inversieproces. Als gevolg hiervan biedt de voorgestelde methode een snelle en hoogwaardige bewerkingsmechanisme. In onze experimenten tonen we door middel van humane evaluatie en kwantitatieve analyse aan dat de voorgestelde methode de gewenste bewerking kan produceren die de voorkeur geniet bij mensen en ook een betere balans bereikt tussen bewerkingskwaliteit en behoud van de originele afbeelding. Onze code is beschikbaar op https://github.com/FusionBrainLab/Guide-and-Rescale.
English
Despite recent advances in large-scale text-to-image generative models,
manipulating real images with these models remains a challenging problem. The
main limitations of existing editing methods are that they either fail to
perform with consistent quality on a wide range of image edits or require
time-consuming hyperparameter tuning or fine-tuning of the diffusion model to
preserve the image-specific appearance of the input image. We propose a novel
approach that is built upon a modified diffusion sampling process via the
guidance mechanism. In this work, we explore the self-guidance technique to
preserve the overall structure of the input image and its local regions
appearance that should not be edited. In particular, we explicitly introduce
layout-preserving energy functions that are aimed to save local and global
structures of the source image. Additionally, we propose a noise rescaling
mechanism that allows to preserve noise distribution by balancing the norms of
classifier-free guidance and our proposed guiders during generation. Such a
guiding approach does not require fine-tuning the diffusion model and exact
inversion process. As a result, the proposed method provides a fast and
high-quality editing mechanism. In our experiments, we show through human
evaluation and quantitative analysis that the proposed method allows to produce
desired editing which is more preferable by humans and also achieves a better
trade-off between editing quality and preservation of the original image. Our
code is available at https://github.com/FusionBrainLab/Guide-and-Rescale.