Modifica continua del layout di singole immagini con modelli di diffusione

Abstract

I recenti progressi nei modelli di diffusione su larga scala per la generazione di immagini da testo hanno abilitato numerose applicazioni nel campo dell'editing delle immagini. Tuttavia, nessuno di questi metodi è stato in grado di modificare il layout di singole immagini esistenti. Per colmare questa lacuna, proponiamo il primo framework per l'editing del layout di una singola immagine preservandone le proprietà visive, consentendo così un editing continuo su un'unica immagine. Il nostro approccio si basa su due moduli chiave. Innanzitutto, per preservare le caratteristiche di più oggetti all'interno di un'immagine, separiamo i concetti dei diversi oggetti e li incorporiamo in token testuali separati utilizzando un metodo innovativo chiamato inversione testuale mascherata. Successivamente, proponiamo un metodo di ottimizzazione senza addestramento per controllare il layout in un modello di diffusione pre-addestrato, che ci permette di rigenerare immagini con concetti appresi e allinearle a layout specificati dall'utente. Come primo framework in grado di modificare il layout di immagini esistenti, dimostriamo che il nostro metodo è efficace e supera altre baseline adattate per supportare questo compito. Il nostro codice sarà liberamente disponibile per uso pubblico dopo l'accettazione.

English

Recent advancements in large-scale text-to-image diffusion models have enabled many applications in image editing. However, none of these methods have been able to edit the layout of single existing images. To address this gap, we propose the first framework for layout editing of a single image while preserving its visual properties, thus allowing for continuous editing on a single image. Our approach is achieved through two key modules. First, to preserve the characteristics of multiple objects within an image, we disentangle the concepts of different objects and embed them into separate textual tokens using a novel method called masked textual inversion. Next, we propose a training-free optimization method to perform layout control for a pre-trained diffusion model, which allows us to regenerate images with learned concepts and align them with user-specified layouts. As the first framework to edit the layout of existing images, we demonstrate that our method is effective and outperforms other baselines that were modified to support this task. Our code will be freely available for public use upon acceptance.

Modifica continua del layout di singole immagini con modelli di diffusione

Continuous Layout Editing of Single Images with Diffusion Models

Abstract

Support