ChatPaper.aiChatPaper

Edição de Imagens Zero-Shot com Imitação de Referência

Zero-shot Image Editing with Reference Imitation

June 11, 2024
Autores: Xi Chen, Yutong Feng, Mengting Chen, Yiyang Wang, Shilong Zhang, Yu Liu, Yujun Shen, Hengshuang Zhao
cs.AI

Resumo

A edição de imagens representa uma tarefa prática, porém desafiadora, considerando as diversas demandas dos usuários, onde uma das partes mais difíceis é descrever com precisão como a imagem editada deve parecer. Neste trabalho, apresentamos uma nova forma de edição, denominada edição imitativa, para ajudar os usuários a exercer sua criatividade de maneira mais conveniente. Concretamente, para editar uma região de interesse em uma imagem, os usuários podem se inspirar diretamente em referências encontradas no mundo real (por exemplo, algumas imagens relativas encontradas online), sem precisar se preocupar com a adequação entre a referência e a fonte. Tal design exige que o sistema descubra automaticamente o que esperar da referência para realizar a edição. Para esse fim, propomos um framework de treinamento generativo, chamado MimicBrush, que seleciona aleatoriamente dois quadros de um clipe de vídeo, mascara algumas regiões de um quadro e aprende a recuperar as regiões mascaradas usando as informações do outro quadro. Dessa forma, nosso modelo, desenvolvido a partir de um prior de difusão, é capaz de capturar a correspondência semântica entre imagens separadas de maneira auto supervisionada. Demonstramos experimentalmente a eficácia do nosso método em diversos casos de teste, bem como sua superioridade em relação às alternativas existentes. Também construímos um benchmark para facilitar pesquisas futuras.
English
Image editing serves as a practical yet challenging task considering the diverse demands from users, where one of the hardest parts is to precisely describe how the edited image should look like. In this work, we present a new form of editing, termed imitative editing, to help users exercise their creativity more conveniently. Concretely, to edit an image region of interest, users are free to directly draw inspiration from some in-the-wild references (e.g., some relative pictures come across online), without having to cope with the fit between the reference and the source. Such a design requires the system to automatically figure out what to expect from the reference to perform the editing. For this purpose, we propose a generative training framework, dubbed MimicBrush, which randomly selects two frames from a video clip, masks some regions of one frame, and learns to recover the masked regions using the information from the other frame. That way, our model, developed from a diffusion prior, is able to capture the semantic correspondence between separate images in a self-supervised manner. We experimentally show the effectiveness of our method under various test cases as well as its superiority over existing alternatives. We also construct a benchmark to facilitate further research.
PDF333December 8, 2024