Edición de imágenes sin ejemplos previos mediante imitación de referencia
Zero-shot Image Editing with Reference Imitation
June 11, 2024
Autores: Xi Chen, Yutong Feng, Mengting Chen, Yiyang Wang, Shilong Zhang, Yu Liu, Yujun Shen, Hengshuang Zhao
cs.AI
Resumen
La edición de imágenes representa una tarea práctica pero desafiante, considerando las diversas demandas de los usuarios, donde una de las partes más difíciles es describir con precisión cómo debería verse la imagen editada. En este trabajo, presentamos una nueva forma de edición, denominada edición imitativa, para ayudar a los usuarios a ejercer su creatividad de manera más conveniente. Concretamente, para editar una región de interés en una imagen, los usuarios pueden inspirarse directamente en algunas referencias del mundo real (por ejemplo, algunas imágenes relacionadas encontradas en línea), sin tener que preocuparse por la compatibilidad entre la referencia y la fuente. Este diseño requiere que el sistema determine automáticamente qué esperar de la referencia para realizar la edición. Para este propósito, proponemos un marco de entrenamiento generativo, llamado MimicBrush, que selecciona aleatoriamente dos fotogramas de un clip de video, enmascara algunas regiones de un fotograma y aprende a recuperar las regiones enmascaradas utilizando la información del otro fotograma. De esta manera, nuestro modelo, desarrollado a partir de un prior de difusión, es capaz de capturar la correspondencia semántica entre imágenes separadas de manera autosupervisada. Experimentalmente demostramos la efectividad de nuestro método en varios casos de prueba, así como su superioridad sobre las alternativas existentes. También construimos un punto de referencia para facilitar futuras investigaciones.
English
Image editing serves as a practical yet challenging task considering the
diverse demands from users, where one of the hardest parts is to precisely
describe how the edited image should look like. In this work, we present a new
form of editing, termed imitative editing, to help users exercise their
creativity more conveniently. Concretely, to edit an image region of interest,
users are free to directly draw inspiration from some in-the-wild references
(e.g., some relative pictures come across online), without having to cope with
the fit between the reference and the source. Such a design requires the system
to automatically figure out what to expect from the reference to perform the
editing. For this purpose, we propose a generative training framework, dubbed
MimicBrush, which randomly selects two frames from a video clip, masks some
regions of one frame, and learns to recover the masked regions using the
information from the other frame. That way, our model, developed from a
diffusion prior, is able to capture the semantic correspondence between
separate images in a self-supervised manner. We experimentally show the
effectiveness of our method under various test cases as well as its superiority
over existing alternatives. We also construct a benchmark to facilitate further
research.Summary
AI-Generated Summary