Edição Contínua de Layout de Imagens Únicas com Modelos de Difusão

Resumo

Os recentes avanços em modelos de difusão de texto para imagem em grande escala têm possibilitado diversas aplicações na edição de imagens. No entanto, nenhum desses métodos foi capaz de editar o layout de imagens individuais existentes. Para preencher essa lacuna, propomos o primeiro framework para edição de layout de uma única imagem, preservando suas propriedades visuais, permitindo assim a edição contínua em uma única imagem. Nossa abordagem é realizada por meio de dois módulos principais. Primeiro, para preservar as características de múltiplos objetos dentro de uma imagem, separamos os conceitos de diferentes objetos e os incorporamos em tokens textuais separados, utilizando um método inovador chamado inversão textual mascarada. Em seguida, propomos um método de otimização sem treinamento para realizar o controle de layout em um modelo de difusão pré-treinado, o que nos permite regenerar imagens com os conceitos aprendidos e alinhá-las com layouts especificados pelo usuário. Como o primeiro framework capaz de editar o layout de imagens existentes, demonstramos que nosso método é eficaz e supera outras abordagens de base que foram adaptadas para suportar essa tarefa. Nosso código estará disponível gratuitamente para uso público após a aceitação.

English

Recent advancements in large-scale text-to-image diffusion models have enabled many applications in image editing. However, none of these methods have been able to edit the layout of single existing images. To address this gap, we propose the first framework for layout editing of a single image while preserving its visual properties, thus allowing for continuous editing on a single image. Our approach is achieved through two key modules. First, to preserve the characteristics of multiple objects within an image, we disentangle the concepts of different objects and embed them into separate textual tokens using a novel method called masked textual inversion. Next, we propose a training-free optimization method to perform layout control for a pre-trained diffusion model, which allows us to regenerate images with learned concepts and align them with user-specified layouts. As the first framework to edit the layout of existing images, we demonstrate that our method is effective and outperforms other baselines that were modified to support this task. Our code will be freely available for public use upon acceptance.

Edição Contínua de Layout de Imagens Únicas com Modelos de Difusão

Continuous Layout Editing of Single Images with Diffusion Models

Resumo

Support