Edición de imágenes sin ejemplos previos mediante imitación de referencia

Resumen

La edición de imágenes representa una tarea práctica pero desafiante, considerando las diversas demandas de los usuarios, donde una de las partes más difíciles es describir con precisión cómo debería verse la imagen editada. En este trabajo, presentamos una nueva forma de edición, denominada edición imitativa, para ayudar a los usuarios a ejercer su creatividad de manera más conveniente. Concretamente, para editar una región de interés en una imagen, los usuarios pueden inspirarse directamente en algunas referencias del mundo real (por ejemplo, algunas imágenes relacionadas encontradas en línea), sin tener que preocuparse por la compatibilidad entre la referencia y la fuente. Este diseño requiere que el sistema determine automáticamente qué esperar de la referencia para realizar la edición. Para este propósito, proponemos un marco de entrenamiento generativo, llamado MimicBrush, que selecciona aleatoriamente dos fotogramas de un clip de video, enmascara algunas regiones de un fotograma y aprende a recuperar las regiones enmascaradas utilizando la información del otro fotograma. De esta manera, nuestro modelo, desarrollado a partir de un prior de difusión, es capaz de capturar la correspondencia semántica entre imágenes separadas de manera autosupervisada. Experimentalmente demostramos la efectividad de nuestro método en varios casos de prueba, así como su superioridad sobre las alternativas existentes. También construimos un punto de referencia para facilitar futuras investigaciones.

English

Image editing serves as a practical yet challenging task considering the diverse demands from users, where one of the hardest parts is to precisely describe how the edited image should look like. In this work, we present a new form of editing, termed imitative editing, to help users exercise their creativity more conveniently. Concretely, to edit an image region of interest, users are free to directly draw inspiration from some in-the-wild references (e.g., some relative pictures come across online), without having to cope with the fit between the reference and the source. Such a design requires the system to automatically figure out what to expect from the reference to perform the editing. For this purpose, we propose a generative training framework, dubbed MimicBrush, which randomly selects two frames from a video clip, masks some regions of one frame, and learns to recover the masked regions using the information from the other frame. That way, our model, developed from a diffusion prior, is able to capture the semantic correspondence between separate images in a self-supervised manner. We experimentally show the effectiveness of our method under various test cases as well as its superiority over existing alternatives. We also construct a benchmark to facilitate further research.

Edición de imágenes sin ejemplos previos mediante imitación de referencia

Zero-shot Image Editing with Reference Imitation

Resumen

Support