Modifica di immagini zero-shot con imitazione di riferimento
Zero-shot Image Editing with Reference Imitation
June 11, 2024
Autori: Xi Chen, Yutong Feng, Mengting Chen, Yiyang Wang, Shilong Zhang, Yu Liu, Yujun Shen, Hengshuang Zhao
cs.AI
Abstract
L'editing di immagini rappresenta un compito pratico ma impegnativo, considerando le diverse esigenze degli utenti, dove una delle parti più difficili è descrivere con precisione come dovrebbe apparire l'immagine modificata. In questo lavoro, presentiamo una nuova forma di editing, denominata editing imitativo, per aiutare gli utenti a esercitare la propria creatività in modo più conveniente. Nello specifico, per modificare una regione di interesse di un'immagine, gli utenti sono liberi di trarre ispirazione direttamente da alcuni riferimenti trovati in contesti reali (ad esempio, alcune immagini relative trovate online), senza doversi preoccupare della corrispondenza tra il riferimento e la sorgente. Tale design richiede che il sistema capisca automaticamente cosa aspettarsi dal riferimento per eseguire la modifica. A tal fine, proponiamo un framework di addestramento generativo, chiamato MimicBrush, che seleziona casualmente due fotogrammi da un video, maschera alcune regioni di un fotogramma e impara a ripristinare le regioni mascherate utilizzando le informazioni dell'altro fotogramma. In questo modo, il nostro modello, sviluppato a partire da un prior di diffusione, è in grado di catturare la corrispondenza semantica tra immagini separate in modo auto-supervisionato. Sperimentalmente dimostriamo l'efficacia del nostro metodo in vari casi di test, nonché la sua superiorità rispetto alle alternative esistenti. Abbiamo anche costruito un benchmark per facilitare ulteriori ricerche.
English
Image editing serves as a practical yet challenging task considering the
diverse demands from users, where one of the hardest parts is to precisely
describe how the edited image should look like. In this work, we present a new
form of editing, termed imitative editing, to help users exercise their
creativity more conveniently. Concretely, to edit an image region of interest,
users are free to directly draw inspiration from some in-the-wild references
(e.g., some relative pictures come across online), without having to cope with
the fit between the reference and the source. Such a design requires the system
to automatically figure out what to expect from the reference to perform the
editing. For this purpose, we propose a generative training framework, dubbed
MimicBrush, which randomly selects two frames from a video clip, masks some
regions of one frame, and learns to recover the masked regions using the
information from the other frame. That way, our model, developed from a
diffusion prior, is able to capture the semantic correspondence between
separate images in a self-supervised manner. We experimentally show the
effectiveness of our method under various test cases as well as its superiority
over existing alternatives. We also construct a benchmark to facilitate further
research.