ImageBrush: Aprendizaje de instrucciones visuales en contexto para la manipulación de imágenes basada en ejemplos
ImageBrush: Learning Visual In-Context Instructions for Exemplar-Based Image Manipulation
August 2, 2023
Autores: Yasheng Sun, Yifan Yang, Houwen Peng, Yifei Shen, Yuqing Yang, Han Hu, Lili Qiu, Hideki Koike
cs.AI
Resumen
Si bien la manipulación de imágenes guiada por lenguaje ha logrado avances notables, el desafío de cómo instruir el proceso de manipulación para que refleje fielmente las intenciones humanas persiste. Una descripción precisa y completa de una tarea de manipulación utilizando lenguaje natural es laboriosa y, en ocasiones, incluso imposible, principalmente debido a la incertidumbre y ambigüedad inherentes presentes en las expresiones lingüísticas. ¿Es factible lograr la manipulación de imágenes sin recurrir a información lingüística externa de modalidad cruzada? Si esta posibilidad existe, la brecha de modalidad inherente se eliminaría sin esfuerzo. En este artículo, proponemos una novedosa metodología de manipulación, denominada ImageBrush, que aprende instrucciones visuales para una edición de imágenes más precisa. Nuestra idea clave es emplear un par de imágenes de transformación como instrucciones visuales, lo que no solo captura con precisión la intención humana, sino que también facilita la accesibilidad en escenarios del mundo real. Capturar instrucciones visuales es particularmente desafiante porque implica extraer las intenciones subyacentes únicamente a partir de demostraciones visuales y luego aplicar esta operación a una nueva imagen. Para abordar este desafío, formulamos el aprendizaje de instrucciones visuales como un problema de inpainting basado en difusión, donde la información contextual se explota completamente a través de un proceso iterativo de generación. Un codificador de indicaciones visuales se diseña cuidadosamente para mejorar la capacidad del modelo para descubrir la intención humana detrás de las instrucciones visuales. Experimentos extensos muestran que nuestro método genera resultados de manipulación atractivos que se ajustan a las transformaciones implicadas en las demostraciones. Además, nuestro modelo exhibe capacidades robustas de generalización en diversas tareas posteriores, como la transferencia de poses, la traducción de imágenes y el inpainting de video.
English
While language-guided image manipulation has made remarkable progress, the
challenge of how to instruct the manipulation process faithfully reflecting
human intentions persists. An accurate and comprehensive description of a
manipulation task using natural language is laborious and sometimes even
impossible, primarily due to the inherent uncertainty and ambiguity present in
linguistic expressions. Is it feasible to accomplish image manipulation without
resorting to external cross-modal language information? If this possibility
exists, the inherent modality gap would be effortlessly eliminated. In this
paper, we propose a novel manipulation methodology, dubbed ImageBrush, that
learns visual instructions for more accurate image editing. Our key idea is to
employ a pair of transformation images as visual instructions, which not only
precisely captures human intention but also facilitates accessibility in
real-world scenarios. Capturing visual instructions is particularly challenging
because it involves extracting the underlying intentions solely from visual
demonstrations and then applying this operation to a new image. To address this
challenge, we formulate visual instruction learning as a diffusion-based
inpainting problem, where the contextual information is fully exploited through
an iterative process of generation. A visual prompting encoder is carefully
devised to enhance the model's capacity in uncovering human intent behind the
visual instructions. Extensive experiments show that our method generates
engaging manipulation results conforming to the transformations entailed in
demonstrations. Moreover, our model exhibits robust generalization capabilities
on various downstream tasks such as pose transfer, image translation and video
inpainting.