Edição Contínua de Layout de Imagens Únicas com Modelos de Difusão
Continuous Layout Editing of Single Images with Diffusion Models
June 22, 2023
Autores: Zhiyuan Zhang, Zhitong Huang, Jing Liao
cs.AI
Resumo
Os recentes avanços em modelos de difusão de texto para imagem em grande escala têm possibilitado diversas aplicações na edição de imagens. No entanto, nenhum desses métodos foi capaz de editar o layout de imagens individuais existentes. Para preencher essa lacuna, propomos o primeiro framework para edição de layout de uma única imagem, preservando suas propriedades visuais, permitindo assim a edição contínua em uma única imagem. Nossa abordagem é realizada por meio de dois módulos principais. Primeiro, para preservar as características de múltiplos objetos dentro de uma imagem, separamos os conceitos de diferentes objetos e os incorporamos em tokens textuais separados, utilizando um método inovador chamado inversão textual mascarada. Em seguida, propomos um método de otimização sem treinamento para realizar o controle de layout em um modelo de difusão pré-treinado, o que nos permite regenerar imagens com os conceitos aprendidos e alinhá-las com layouts especificados pelo usuário. Como o primeiro framework capaz de editar o layout de imagens existentes, demonstramos que nosso método é eficaz e supera outras abordagens de base que foram adaptadas para suportar essa tarefa. Nosso código estará disponível gratuitamente para uso público após a aceitação.
English
Recent advancements in large-scale text-to-image diffusion models have
enabled many applications in image editing. However, none of these methods have
been able to edit the layout of single existing images. To address this gap, we
propose the first framework for layout editing of a single image while
preserving its visual properties, thus allowing for continuous editing on a
single image. Our approach is achieved through two key modules. First, to
preserve the characteristics of multiple objects within an image, we
disentangle the concepts of different objects and embed them into separate
textual tokens using a novel method called masked textual inversion. Next, we
propose a training-free optimization method to perform layout control for a
pre-trained diffusion model, which allows us to regenerate images with learned
concepts and align them with user-specified layouts. As the first framework to
edit the layout of existing images, we demonstrate that our method is effective
and outperforms other baselines that were modified to support this task. Our
code will be freely available for public use upon acceptance.