Continueel Lay-out Bewerken van Enkele Afbeeldingen met Diffusiemodellen
Continuous Layout Editing of Single Images with Diffusion Models
June 22, 2023
Auteurs: Zhiyuan Zhang, Zhitong Huang, Jing Liao
cs.AI
Samenvatting
Recente vooruitgang in grootschalige tekst-naar-beeld diffusiemodellen heeft
veel toepassingen in beeldbewerking mogelijk gemaakt. Geen van deze methoden is
echter in staat geweest om de lay-out van bestaande afbeeldingen te bewerken.
Om dit gat te dichten, stellen we het eerste raamwerk voor voor het bewerken van
de lay-out van een enkele afbeelding, waarbij de visuele eigenschappen behouden
blijven, waardoor continue bewerkingen op een enkele afbeelding mogelijk zijn.
Onze aanpak wordt gerealiseerd door middel van twee belangrijke modules.
Ten eerste, om de kenmerken van meerdere objecten binnen een afbeelding te
behouden, ontwarren we de concepten van verschillende objecten en embedden we
ze in afzonderlijke tekstuele tokens met behulp van een nieuwe methode genaamd
gemaskeerde tekstuele inversie. Vervolgens stellen we een trainingsvrije
optimalisatiemethode voor om lay-outcontrole uit te voeren voor een
vooraf getraind diffusiemodel, waardoor we afbeeldingen met geleerde concepten
kunnen regenereren en afstemmen op door de gebruiker gespecificeerde lay-outs.
Als het eerste raamwerk voor het bewerken van de lay-out van bestaande
afbeeldingen, tonen we aan dat onze methode effectief is en andere
baseline-methoden die zijn aangepast om deze taak te ondersteunen, overtreft.
Onze code zal na acceptatie vrij beschikbaar zijn voor publiek gebruik.
English
Recent advancements in large-scale text-to-image diffusion models have
enabled many applications in image editing. However, none of these methods have
been able to edit the layout of single existing images. To address this gap, we
propose the first framework for layout editing of a single image while
preserving its visual properties, thus allowing for continuous editing on a
single image. Our approach is achieved through two key modules. First, to
preserve the characteristics of multiple objects within an image, we
disentangle the concepts of different objects and embed them into separate
textual tokens using a novel method called masked textual inversion. Next, we
propose a training-free optimization method to perform layout control for a
pre-trained diffusion model, which allows us to regenerate images with learned
concepts and align them with user-specified layouts. As the first framework to
edit the layout of existing images, we demonstrate that our method is effective
and outperforms other baselines that were modified to support this task. Our
code will be freely available for public use upon acceptance.