Edición continua del diseño de imágenes individuales con modelos de difusión
Continuous Layout Editing of Single Images with Diffusion Models
June 22, 2023
Autores: Zhiyuan Zhang, Zhitong Huang, Jing Liao
cs.AI
Resumen
Los recientes avances en los modelos de difusión de texto a imagen a gran escala han permitido muchas aplicaciones en la edición de imágenes. Sin embargo, ninguno de estos métodos ha sido capaz de editar el diseño de imágenes individuales existentes. Para abordar esta brecha, proponemos el primer marco de trabajo para la edición del diseño de una sola imagen mientras se preservan sus propiedades visuales, lo que permite una edición continua en una única imagen. Nuestro enfoque se logra mediante dos módulos clave. Primero, para preservar las características de múltiples objetos dentro de una imagen, separamos los conceptos de diferentes objetos y los integramos en tokens textuales separados utilizando un método novedoso llamado inversión textual enmascarada. A continuación, proponemos un método de optimización sin entrenamiento para realizar el control del diseño en un modelo de difusión preentrenado, lo que nos permite regenerar imágenes con conceptos aprendidos y alinearlos con diseños especificados por el usuario. Como el primer marco de trabajo para editar el diseño de imágenes existentes, demostramos que nuestro método es efectivo y supera a otras líneas base que fueron modificadas para apoyar esta tarea. Nuestro código estará disponible libremente para uso público tras su aceptación.
English
Recent advancements in large-scale text-to-image diffusion models have
enabled many applications in image editing. However, none of these methods have
been able to edit the layout of single existing images. To address this gap, we
propose the first framework for layout editing of a single image while
preserving its visual properties, thus allowing for continuous editing on a
single image. Our approach is achieved through two key modules. First, to
preserve the characteristics of multiple objects within an image, we
disentangle the concepts of different objects and embed them into separate
textual tokens using a novel method called masked textual inversion. Next, we
propose a training-free optimization method to perform layout control for a
pre-trained diffusion model, which allows us to regenerate images with learned
concepts and align them with user-specified layouts. As the first framework to
edit the layout of existing images, we demonstrate that our method is effective
and outperforms other baselines that were modified to support this task. Our
code will be freely available for public use upon acceptance.