Guide-and-Rescale: Zelfgeleidingsmechanisme voor Effectieve Afstemmingsvrije Bewerking van Echte Afbeeldingen

Samenvatting

Ondanks recente vooruitgang in grootschalige tekst-naar-beeld generatieve modellen, blijft het manipuleren van echte afbeeldingen met deze modellen een uitdagend probleem. De belangrijkste beperkingen van bestaande bewerkingsmethoden zijn dat ze ofwel niet consistent presteren bij een breed scala aan afbeeldingsbewerkingen, ofwel tijdrovende hyperparameterafstemming of fine-tuning van het diffusiemodel vereisen om de afbeeldingsspecifieke uitstraling van de invoerafbeelding te behouden. Wij stellen een nieuwe aanpak voor die is gebaseerd op een aangepast diffusie-steekproefproces via het guidance-mechanisme. In dit werk onderzoeken we de zelf-guidance techniek om de algehele structuur van de invoerafbeelding en het uiterlijk van lokale regio's die niet bewerkt moeten worden, te behouden. In het bijzonder introduceren we expliciet lay-outbehoudende energiefuncties die gericht zijn op het behoud van lokale en globale structuren van de bronafbeelding. Daarnaast stellen we een ruisherschalingsmechanisme voor dat het mogelijk maakt de ruisverdeling te behouden door de normen van classifier-free guidance en onze voorgestelde guiders tijdens de generatie in evenwicht te brengen. Een dergelijke sturende aanpak vereist geen fine-tuning van het diffusiemodel en een exact inversieproces. Als gevolg hiervan biedt de voorgestelde methode een snelle en hoogwaardige bewerkingsmechanisme. In onze experimenten tonen we door middel van humane evaluatie en kwantitatieve analyse aan dat de voorgestelde methode de gewenste bewerking kan produceren die de voorkeur geniet bij mensen en ook een betere balans bereikt tussen bewerkingskwaliteit en behoud van de originele afbeelding. Onze code is beschikbaar op https://github.com/FusionBrainLab/Guide-and-Rescale.

English

Despite recent advances in large-scale text-to-image generative models, manipulating real images with these models remains a challenging problem. The main limitations of existing editing methods are that they either fail to perform with consistent quality on a wide range of image edits or require time-consuming hyperparameter tuning or fine-tuning of the diffusion model to preserve the image-specific appearance of the input image. We propose a novel approach that is built upon a modified diffusion sampling process via the guidance mechanism. In this work, we explore the self-guidance technique to preserve the overall structure of the input image and its local regions appearance that should not be edited. In particular, we explicitly introduce layout-preserving energy functions that are aimed to save local and global structures of the source image. Additionally, we propose a noise rescaling mechanism that allows to preserve noise distribution by balancing the norms of classifier-free guidance and our proposed guiders during generation. Such a guiding approach does not require fine-tuning the diffusion model and exact inversion process. As a result, the proposed method provides a fast and high-quality editing mechanism. In our experiments, we show through human evaluation and quantitative analysis that the proposed method allows to produce desired editing which is more preferable by humans and also achieves a better trade-off between editing quality and preservation of the original image. Our code is available at https://github.com/FusionBrainLab/Guide-and-Rescale.

Guide-and-Rescale: Zelfgeleidingsmechanisme voor Effectieve Afstemmingsvrije Bewerking van Echte Afbeeldingen

Guide-and-Rescale: Self-Guidance Mechanism for Effective Tuning-Free Real Image Editing

Samenvatting

Support