LIME: Gelokaliseerde beeldbewerking via aandachtregulering in diffusiemodellen
LIME: Localized Image Editing via Attention Regularization in Diffusion Models
December 14, 2023
Auteurs: Enis Simsar, Alessio Tonioni, Yongqin Xian, Thomas Hofmann, Federico Tombari
cs.AI
Samenvatting
Diffusiemodellen (DMs) hebben aan populariteit gewonnen vanwege hun vermogen om hoogwaardige, gevarieerde afbeeldingen te genereren, met recente vooruitgang in tekst-naar-beeldgeneratie. Het onderzoeksfocus verschuift nu naar de beheersbaarheid van DMs. Een belangrijke uitdaging binnen dit domein is gelokaliseerde bewerking, waarbij specifieke delen van een afbeelding worden aangepast zonder de rest van de inhoud te beïnvloeden. Dit artikel introduceert LIME voor gelokaliseerde beeldbewerking in diffusiemodellen die geen door de gebruiker gespecificeerde interessegebieden (RoI) of aanvullende tekstinvoer vereisen. Onze methode maakt gebruik van kenmerken van vooraf getrainde methoden en een eenvoudige clusteringtechniek om nauwkeurige semantische segmentatiekaarten te verkrijgen. Vervolgens worden deze segmenten verfijnd voor gelokaliseerde bewerkingen door gebruik te maken van cross-attention-kaarten. Tot slot stellen we een nieuwe cross-attention-regularisatietechniek voor die niet-gerelateerde cross-attention-scores in het RoI bestraft tijdens de denoising-stappen, waardoor gelokaliseerde bewerkingen worden gegarandeerd. Onze aanpak verbetert, zonder hertraining en fine-tuning, consistent de prestaties van bestaande methoden in verschillende bewerkingsbenchmarks.
English
Diffusion models (DMs) have gained prominence due to their ability to
generate high-quality, varied images, with recent advancements in text-to-image
generation. The research focus is now shifting towards the controllability of
DMs. A significant challenge within this domain is localized editing, where
specific areas of an image are modified without affecting the rest of the
content. This paper introduces LIME for localized image editing in diffusion
models that do not require user-specified regions of interest (RoI) or
additional text input. Our method employs features from pre-trained methods and
a simple clustering technique to obtain precise semantic segmentation maps.
Then, by leveraging cross-attention maps, it refines these segments for
localized edits. Finally, we propose a novel cross-attention regularization
technique that penalizes unrelated cross-attention scores in the RoI during the
denoising steps, ensuring localized edits. Our approach, without re-training
and fine-tuning, consistently improves the performance of existing methods in
various editing benchmarks.