ImageBrush: Aprendendo Instruções Visuais em Contexto para Manipulação de Imagens Baseada em Exemplos
ImageBrush: Learning Visual In-Context Instructions for Exemplar-Based Image Manipulation
August 2, 2023
Autores: Yasheng Sun, Yifan Yang, Houwen Peng, Yifei Shen, Yuqing Yang, Han Hu, Lili Qiu, Hideki Koike
cs.AI
Resumo
Embora a manipulação de imagens guiada por linguagem tenha feito progressos notáveis, o desafio de como instruir o processo de manipulação de forma fiel às intenções humanas persiste. Uma descrição precisa e abrangente de uma tarefa de manipulação usando linguagem natural é trabalhosa e, às vezes, até impossível, principalmente devido à incerteza e ambiguidade inerentes às expressões linguísticas. Seria viável realizar a manipulação de imagens sem recorrer a informações externas de linguagem multimodal? Se essa possibilidade existir, a lacuna modal inerente seria eliminada sem esforço. Neste artigo, propomos uma nova metodologia de manipulação, denominada ImageBrush, que aprende instruções visuais para uma edição de imagem mais precisa. Nossa ideia central é empregar um par de imagens de transformação como instruções visuais, que não apenas capturam com precisão a intenção humana, mas também facilitam a acessibilidade em cenários do mundo real. Capturar instruções visuais é particularmente desafiador porque envolve extrair as intenções subjacentes apenas a partir de demonstrações visuais e, em seguida, aplicar essa operação a uma nova imagem. Para enfrentar esse desafio, formulamos o aprendizado de instruções visuais como um problema de inpainting baseado em difusão, onde a informação contextual é totalmente explorada por meio de um processo iterativo de geração. Um codificador de prompt visual é cuidadosamente projetado para aprimorar a capacidade do modelo em descobrir a intenção humana por trás das instruções visuais. Experimentos extensivos mostram que nosso método gera resultados de manipulação envolventes que estão em conformidade com as transformações implicadas nas demonstrações. Além disso, nosso modelo exibe capacidades robustas de generalização em várias tarefas subsequentes, como transferência de pose, tradução de imagens e inpainting de vídeo.
English
While language-guided image manipulation has made remarkable progress, the
challenge of how to instruct the manipulation process faithfully reflecting
human intentions persists. An accurate and comprehensive description of a
manipulation task using natural language is laborious and sometimes even
impossible, primarily due to the inherent uncertainty and ambiguity present in
linguistic expressions. Is it feasible to accomplish image manipulation without
resorting to external cross-modal language information? If this possibility
exists, the inherent modality gap would be effortlessly eliminated. In this
paper, we propose a novel manipulation methodology, dubbed ImageBrush, that
learns visual instructions for more accurate image editing. Our key idea is to
employ a pair of transformation images as visual instructions, which not only
precisely captures human intention but also facilitates accessibility in
real-world scenarios. Capturing visual instructions is particularly challenging
because it involves extracting the underlying intentions solely from visual
demonstrations and then applying this operation to a new image. To address this
challenge, we formulate visual instruction learning as a diffusion-based
inpainting problem, where the contextual information is fully exploited through
an iterative process of generation. A visual prompting encoder is carefully
devised to enhance the model's capacity in uncovering human intent behind the
visual instructions. Extensive experiments show that our method generates
engaging manipulation results conforming to the transformations entailed in
demonstrations. Moreover, our model exhibits robust generalization capabilities
on various downstream tasks such as pose transfer, image translation and video
inpainting.