Bewerkbare Beeldelementen voor Controleerbare Synthese
Editable Image Elements for Controllable Synthesis
April 24, 2024
Auteurs: Jiteng Mu, Michaël Gharbi, Richard Zhang, Eli Shechtman, Nuno Vasconcelos, Xiaolong Wang, Taesung Park
cs.AI
Samenvatting
Diffusiemodellen hebben aanzienlijke vooruitgang geboekt in tekstgestuurde synthesetaken. Het bewerken van door gebruikers aangeleverde afbeeldingen blijft echter een uitdaging, omdat de hoogdimensionale ruisinputruimte van diffusiemodellen niet van nature geschikt is voor beeldinversie of ruimtelijke bewerking. In dit werk stellen we een beeldrepresentatie voor die ruimtelijke bewerking van invoerafbeeldingen bevordert met behulp van een diffusiemodel. Concreet leren we een invoer te coderen in "beeldelementen" die een invoerafbeelding getrouw kunnen reconstrueren. Deze elementen kunnen intuïtief door een gebruiker worden bewerkt en worden door een diffusiemodel gedecodeerd in realistische afbeeldingen. We tonen de effectiviteit van onze representatie aan bij verschillende beeldbewerkingstaken, zoals het wijzigen van de grootte van objecten, herschikking, verslepen, de-occlusie, verwijdering, variatie en beeldcompositie. Projectpagina: https://jitengmu.github.io/Editable_Image_Elements/
English
Diffusion models have made significant advances in text-guided synthesis
tasks. However, editing user-provided images remains challenging, as the high
dimensional noise input space of diffusion models is not naturally suited for
image inversion or spatial editing. In this work, we propose an image
representation that promotes spatial editing of input images using a diffusion
model. Concretely, we learn to encode an input into "image elements" that can
faithfully reconstruct an input image. These elements can be intuitively edited
by a user, and are decoded by a diffusion model into realistic images. We show
the effectiveness of our representation on various image editing tasks, such as
object resizing, rearrangement, dragging, de-occlusion, removal, variation, and
image composition. Project page:
https://jitengmu.github.io/Editable_Image_Elements/