Elementos de Imagem Editáveis para Síntese Controlável
Editable Image Elements for Controllable Synthesis
April 24, 2024
Autores: Jiteng Mu, Michaël Gharbi, Richard Zhang, Eli Shechtman, Nuno Vasconcelos, Xiaolong Wang, Taesung Park
cs.AI
Resumo
Os modelos de difusão têm alcançado avanços significativos em tarefas de síntese guiada por texto. No entanto, a edição de imagens fornecidas pelo usuário continua sendo um desafio, pois o espaço de entrada de ruído de alta dimensionalidade dos modelos de difusão não é naturalmente adequado para inversão de imagem ou edição espacial. Neste trabalho, propomos uma representação de imagem que promove a edição espacial de imagens de entrada usando um modelo de difusão. Concretamente, aprendemos a codificar uma entrada em "elementos de imagem" que podem reconstruir fielmente uma imagem de entrada. Esses elementos podem ser editados intuitivamente por um usuário e são decodificados por um modelo de difusão em imagens realistas. Demonstramos a eficácia de nossa representação em várias tarefas de edição de imagem, como redimensionamento de objetos, rearranjo, arrastar, desoclusão, remoção, variação e composição de imagens. Página do projeto: https://jitengmu.github.io/Editable_Image_Elements/
English
Diffusion models have made significant advances in text-guided synthesis
tasks. However, editing user-provided images remains challenging, as the high
dimensional noise input space of diffusion models is not naturally suited for
image inversion or spatial editing. In this work, we propose an image
representation that promotes spatial editing of input images using a diffusion
model. Concretely, we learn to encode an input into "image elements" that can
faithfully reconstruct an input image. These elements can be intuitively edited
by a user, and are decoded by a diffusion model into realistic images. We show
the effectiveness of our representation on various image editing tasks, such as
object resizing, rearrangement, dragging, de-occlusion, removal, variation, and
image composition. Project page:
https://jitengmu.github.io/Editable_Image_Elements/