Édition d'images en zero-shot par imitation de référence
Zero-shot Image Editing with Reference Imitation
June 11, 2024
Auteurs: Xi Chen, Yutong Feng, Mengting Chen, Yiyang Wang, Shilong Zhang, Yu Liu, Yujun Shen, Hengshuang Zhao
cs.AI
Résumé
L'édition d'images constitue une tâche pratique mais complexe, compte tenu des demandes variées des utilisateurs, où l'un des aspects les plus difficiles est de décrire précisément à quoi devrait ressembler l'image modifiée. Dans ce travail, nous présentons une nouvelle forme d'édition, appelée édition imitative, pour aider les utilisateurs à exercer leur créativité plus facilement. Concrètement, pour modifier une région d'intérêt d'une image, les utilisateurs peuvent s'inspirer directement de références trouvées dans la nature (par exemple, des images rencontrées en ligne), sans avoir à se soucier de la compatibilité entre la référence et la source. Une telle conception nécessite que le système détermine automatiquement ce qu'il faut attendre de la référence pour effectuer l'édition. À cette fin, nous proposons un cadre d'apprentissage génératif, baptisé MimicBrush, qui sélectionne aléatoirement deux images d'une séquence vidéo, masque certaines régions d'une image et apprend à reconstituer les régions masquées en utilisant les informations de l'autre image. Ainsi, notre modèle, développé à partir d'un prior de diffusion, est capable de capturer la correspondance sémantique entre des images distinctes de manière auto-supervisée. Nous démontrons expérimentalement l'efficacité de notre méthode dans divers cas de test ainsi que sa supériorité par rapport aux alternatives existantes. Nous construisons également un benchmark pour faciliter les recherches futures.
English
Image editing serves as a practical yet challenging task considering the
diverse demands from users, where one of the hardest parts is to precisely
describe how the edited image should look like. In this work, we present a new
form of editing, termed imitative editing, to help users exercise their
creativity more conveniently. Concretely, to edit an image region of interest,
users are free to directly draw inspiration from some in-the-wild references
(e.g., some relative pictures come across online), without having to cope with
the fit between the reference and the source. Such a design requires the system
to automatically figure out what to expect from the reference to perform the
editing. For this purpose, we propose a generative training framework, dubbed
MimicBrush, which randomly selects two frames from a video clip, masks some
regions of one frame, and learns to recover the masked regions using the
information from the other frame. That way, our model, developed from a
diffusion prior, is able to capture the semantic correspondence between
separate images in a self-supervised manner. We experimentally show the
effectiveness of our method under various test cases as well as its superiority
over existing alternatives. We also construct a benchmark to facilitate further
research.Summary
AI-Generated Summary