ImageBrush: Het leren van visuele in-context instructies voor voorbeeldgebaseerde beeldmanipulatie
ImageBrush: Learning Visual In-Context Instructions for Exemplar-Based Image Manipulation
August 2, 2023
Auteurs: Yasheng Sun, Yifan Yang, Houwen Peng, Yifei Shen, Yuqing Yang, Han Hu, Lili Qiu, Hideki Koike
cs.AI
Samenvatting
Hoewel taalgestuurde beeldmanipulatie opmerkelijke vooruitgang heeft geboekt, blijft de uitdaging bestaan hoe het manipulatieproces nauwkeurig kan worden geïnstrueerd om menselijke intenties trouw weer te geven. Een accurate en uitgebreide beschrijving van een manipulatie-taak met behulp van natuurlijke taal is arbeidsintensief en soms zelfs onmogelijk, voornamelijk vanwege de inherente onzekerheid en ambiguïteit in linguïstische uitdrukkingen. Is het haalbaar om beeldmanipulatie te bereiken zonder gebruik te maken van externe cross-modale taal-informatie? Als deze mogelijkheid bestaat, zou de inherente modale kloeffeloos worden geëlimineerd. In dit artikel stellen we een nieuwe manipulatiemethodologie voor, genaamd ImageBrush, die visuele instructies leert voor nauwkeurigere beeldbewerking. Onze kernidee is om een paar transformatiebeelden te gebruiken als visuele instructies, die niet alleen menselijke intentie precies vastleggen, maar ook toegankelijkheid in realistische scenario's vergemakkelijken. Het vastleggen van visuele instructies is bijzonder uitdagend omdat het gaat om het extraheren van de onderliggende intenties uitsluitend uit visuele demonstraties en vervolgens deze bewerking toe te passen op een nieuw beeld. Om deze uitdaging aan te pakken, formuleren we het leren van visuele instructies als een op diffusie gebaseerd inpainting-probleem, waarbij de contextuele informatie volledig wordt benut door een iteratief generatieproces. Een visuele prompting-encoder is zorgvuldig ontworpen om het vermogen van het model te vergroten om menselijke intentie achter de visuele instructies te ontdekken. Uitgebreide experimenten tonen aan dat onze methode boeiende manipulatieresultaten genereert die overeenkomen met de transformaties die in de demonstraties zijn vervat. Bovendien toont ons model robuuste generalisatiecapaciteiten op verschillende downstream taken, zoals pose-overdracht, beeldvertaling en video-inpainting.
English
While language-guided image manipulation has made remarkable progress, the
challenge of how to instruct the manipulation process faithfully reflecting
human intentions persists. An accurate and comprehensive description of a
manipulation task using natural language is laborious and sometimes even
impossible, primarily due to the inherent uncertainty and ambiguity present in
linguistic expressions. Is it feasible to accomplish image manipulation without
resorting to external cross-modal language information? If this possibility
exists, the inherent modality gap would be effortlessly eliminated. In this
paper, we propose a novel manipulation methodology, dubbed ImageBrush, that
learns visual instructions for more accurate image editing. Our key idea is to
employ a pair of transformation images as visual instructions, which not only
precisely captures human intention but also facilitates accessibility in
real-world scenarios. Capturing visual instructions is particularly challenging
because it involves extracting the underlying intentions solely from visual
demonstrations and then applying this operation to a new image. To address this
challenge, we formulate visual instruction learning as a diffusion-based
inpainting problem, where the contextual information is fully exploited through
an iterative process of generation. A visual prompting encoder is carefully
devised to enhance the model's capacity in uncovering human intent behind the
visual instructions. Extensive experiments show that our method generates
engaging manipulation results conforming to the transformations entailed in
demonstrations. Moreover, our model exhibits robust generalization capabilities
on various downstream tasks such as pose transfer, image translation and video
inpainting.