Continueel Lay-out Bewerken van Enkele Afbeeldingen met Diffusiemodellen

Samenvatting

Recente vooruitgang in grootschalige tekst-naar-beeld diffusiemodellen heeft veel toepassingen in beeldbewerking mogelijk gemaakt. Geen van deze methoden is echter in staat geweest om de lay-out van bestaande afbeeldingen te bewerken. Om dit gat te dichten, stellen we het eerste raamwerk voor voor het bewerken van de lay-out van een enkele afbeelding, waarbij de visuele eigenschappen behouden blijven, waardoor continue bewerkingen op een enkele afbeelding mogelijk zijn. Onze aanpak wordt gerealiseerd door middel van twee belangrijke modules. Ten eerste, om de kenmerken van meerdere objecten binnen een afbeelding te behouden, ontwarren we de concepten van verschillende objecten en embedden we ze in afzonderlijke tekstuele tokens met behulp van een nieuwe methode genaamd gemaskeerde tekstuele inversie. Vervolgens stellen we een trainingsvrije optimalisatiemethode voor om lay-outcontrole uit te voeren voor een vooraf getraind diffusiemodel, waardoor we afbeeldingen met geleerde concepten kunnen regenereren en afstemmen op door de gebruiker gespecificeerde lay-outs. Als het eerste raamwerk voor het bewerken van de lay-out van bestaande afbeeldingen, tonen we aan dat onze methode effectief is en andere baseline-methoden die zijn aangepast om deze taak te ondersteunen, overtreft. Onze code zal na acceptatie vrij beschikbaar zijn voor publiek gebruik.

English

Recent advancements in large-scale text-to-image diffusion models have enabled many applications in image editing. However, none of these methods have been able to edit the layout of single existing images. To address this gap, we propose the first framework for layout editing of a single image while preserving its visual properties, thus allowing for continuous editing on a single image. Our approach is achieved through two key modules. First, to preserve the characteristics of multiple objects within an image, we disentangle the concepts of different objects and embed them into separate textual tokens using a novel method called masked textual inversion. Next, we propose a training-free optimization method to perform layout control for a pre-trained diffusion model, which allows us to regenerate images with learned concepts and align them with user-specified layouts. As the first framework to edit the layout of existing images, we demonstrate that our method is effective and outperforms other baselines that were modified to support this task. Our code will be freely available for public use upon acceptance.

Continueel Lay-out Bewerken van Enkele Afbeeldingen met Diffusiemodellen

Continuous Layout Editing of Single Images with Diffusion Models

Samenvatting

Support