Modifica di immagini zero-shot con imitazione di riferimento

Abstract

L'editing di immagini rappresenta un compito pratico ma impegnativo, considerando le diverse esigenze degli utenti, dove una delle parti più difficili è descrivere con precisione come dovrebbe apparire l'immagine modificata. In questo lavoro, presentiamo una nuova forma di editing, denominata editing imitativo, per aiutare gli utenti a esercitare la propria creatività in modo più conveniente. Nello specifico, per modificare una regione di interesse di un'immagine, gli utenti sono liberi di trarre ispirazione direttamente da alcuni riferimenti trovati in contesti reali (ad esempio, alcune immagini relative trovate online), senza doversi preoccupare della corrispondenza tra il riferimento e la sorgente. Tale design richiede che il sistema capisca automaticamente cosa aspettarsi dal riferimento per eseguire la modifica. A tal fine, proponiamo un framework di addestramento generativo, chiamato MimicBrush, che seleziona casualmente due fotogrammi da un video, maschera alcune regioni di un fotogramma e impara a ripristinare le regioni mascherate utilizzando le informazioni dell'altro fotogramma. In questo modo, il nostro modello, sviluppato a partire da un prior di diffusione, è in grado di catturare la corrispondenza semantica tra immagini separate in modo auto-supervisionato. Sperimentalmente dimostriamo l'efficacia del nostro metodo in vari casi di test, nonché la sua superiorità rispetto alle alternative esistenti. Abbiamo anche costruito un benchmark per facilitare ulteriori ricerche.

English

Image editing serves as a practical yet challenging task considering the diverse demands from users, where one of the hardest parts is to precisely describe how the edited image should look like. In this work, we present a new form of editing, termed imitative editing, to help users exercise their creativity more conveniently. Concretely, to edit an image region of interest, users are free to directly draw inspiration from some in-the-wild references (e.g., some relative pictures come across online), without having to cope with the fit between the reference and the source. Such a design requires the system to automatically figure out what to expect from the reference to perform the editing. For this purpose, we propose a generative training framework, dubbed MimicBrush, which randomly selects two frames from a video clip, masks some regions of one frame, and learns to recover the masked regions using the information from the other frame. That way, our model, developed from a diffusion prior, is able to capture the semantic correspondence between separate images in a self-supervised manner. We experimentally show the effectiveness of our method under various test cases as well as its superiority over existing alternatives. We also construct a benchmark to facilitate further research.

Modifica di immagini zero-shot con imitazione di riferimento

Zero-shot Image Editing with Reference Imitation

Abstract

Support