Guide-and-Rescale: Zelfgeleidingsmechanisme voor Effectieve Afstemmingsvrije Bewerking van Echte AfbeeldingenGuide-and-Rescale: Self-Guidance Mechanism for Effective Tuning-Free
Real Image Editing
Ondanks recente vooruitgang in grootschalige tekst-naar-beeld generatieve modellen, blijft het manipuleren van echte afbeeldingen met deze modellen een uitdagend probleem. De belangrijkste beperkingen van bestaande bewerkingsmethoden zijn dat ze ofwel niet consistent presteren bij een breed scala aan afbeeldingsbewerkingen, ofwel tijdrovende hyperparameterafstemming of fine-tuning van het diffusiemodel vereisen om de afbeeldingsspecifieke uitstraling van de invoerafbeelding te behouden. Wij stellen een nieuwe aanpak voor die is gebaseerd op een aangepast diffusie-steekproefproces via het guidance-mechanisme. In dit werk onderzoeken we de zelf-guidance techniek om de algehele structuur van de invoerafbeelding en het uiterlijk van lokale regio's die niet bewerkt moeten worden, te behouden. In het bijzonder introduceren we expliciet lay-outbehoudende energiefuncties die gericht zijn op het behoud van lokale en globale structuren van de bronafbeelding. Daarnaast stellen we een ruisherschalingsmechanisme voor dat het mogelijk maakt de ruisverdeling te behouden door de normen van classifier-free guidance en onze voorgestelde guiders tijdens de generatie in evenwicht te brengen. Een dergelijke sturende aanpak vereist geen fine-tuning van het diffusiemodel en een exact inversieproces. Als gevolg hiervan biedt de voorgestelde methode een snelle en hoogwaardige bewerkingsmechanisme. In onze experimenten tonen we door middel van humane evaluatie en kwantitatieve analyse aan dat de voorgestelde methode de gewenste bewerking kan produceren die de voorkeur geniet bij mensen en ook een betere balans bereikt tussen bewerkingskwaliteit en behoud van de originele afbeelding. Onze code is beschikbaar op https://github.com/FusionBrainLab/Guide-and-Rescale.