Zero-shot beeldbewerking met referentie-imitaties
Zero-shot Image Editing with Reference Imitation
June 11, 2024
Auteurs: Xi Chen, Yutong Feng, Mengting Chen, Yiyang Wang, Shilong Zhang, Yu Liu, Yujun Shen, Hengshuang Zhao
cs.AI
Samenvatting
Afbeeldingen bewerken is een praktische maar uitdagende taak, gezien de uiteenlopende eisen van gebruikers, waarbij een van de moeilijkste aspecten is om precies te beschrijven hoe de bewerkte afbeelding eruit moet zien. In dit werk introduceren we een nieuwe vorm van bewerken, genaamd imitatief bewerken, om gebruikers te helpen hun creativiteit gemakkelijker te uiten. Concreet kunnen gebruikers, om een interessant gebied in een afbeelding te bewerken, direct inspiratie halen uit enkele referenties uit de praktijk (bijvoorbeeld enkele gerelateerde afbeeldingen die ze online tegenkomen), zonder zich zorgen te hoeven maken over de aansluiting tussen de referentie en de bron. Een dergelijk ontwerp vereist dat het systeem automatisch bepaalt wat er van de referentie verwacht kan worden om de bewerking uit te voeren. Hiervoor stellen we een generatief trainingsframework voor, genaamd MimicBrush, dat willekeurig twee frames uit een videoclip selecteert, enkele regio's van één frame maskeert, en leert om de gemaskeerde regio's te herstellen met behulp van informatie uit het andere frame. Op die manier is ons model, ontwikkeld vanuit een diffusieprior, in staat om de semantische correspondentie tussen afzonderlijke afbeeldingen op een zelfgestuurde manier vast te leggen. We tonen experimenteel de effectiviteit van onze methode aan onder verschillende testgevallen, evenals de superioriteit ten opzichte van bestaande alternatieven. We stellen ook een benchmark samen om verder onderzoek te vergemakkelijken.
English
Image editing serves as a practical yet challenging task considering the
diverse demands from users, where one of the hardest parts is to precisely
describe how the edited image should look like. In this work, we present a new
form of editing, termed imitative editing, to help users exercise their
creativity more conveniently. Concretely, to edit an image region of interest,
users are free to directly draw inspiration from some in-the-wild references
(e.g., some relative pictures come across online), without having to cope with
the fit between the reference and the source. Such a design requires the system
to automatically figure out what to expect from the reference to perform the
editing. For this purpose, we propose a generative training framework, dubbed
MimicBrush, which randomly selects two frames from a video clip, masks some
regions of one frame, and learns to recover the masked regions using the
information from the other frame. That way, our model, developed from a
diffusion prior, is able to capture the semantic correspondence between
separate images in a self-supervised manner. We experimentally show the
effectiveness of our method under various test cases as well as its superiority
over existing alternatives. We also construct a benchmark to facilitate further
research.