ImageBrush: Apprendimento di istruzioni visive in-context per la manipolazione di immagini basata su esempi
ImageBrush: Learning Visual In-Context Instructions for Exemplar-Based Image Manipulation
August 2, 2023
Autori: Yasheng Sun, Yifan Yang, Houwen Peng, Yifei Shen, Yuqing Yang, Han Hu, Lili Qiu, Hideki Koike
cs.AI
Abstract
Sebbene la manipolazione di immagini guidata dal linguaggio abbia compiuto progressi notevoli, la sfida di come istruire il processo di manipolazione in modo fedele alle intenzioni umane persiste. Fornire una descrizione accurata e completa di un'attività di manipolazione utilizzando il linguaggio naturale è laborioso e talvolta persino impossibile, principalmente a causa dell'incertezza e dell'ambiguità intrinseche presenti nelle espressioni linguistiche. È possibile realizzare la manipolazione di immagini senza ricorrere a informazioni linguistiche cross-modali esterne? Se questa possibilità esiste, il divario modale intrinseco verrebbe eliminato senza sforzo. In questo articolo, proponiamo una nuova metodologia di manipolazione, denominata ImageBrush, che apprende istruzioni visive per un'editing di immagini più accurato. La nostra idea chiave è impiegare una coppia di immagini di trasformazione come istruzioni visive, che non solo catturano con precisione l'intenzione umana, ma facilitano anche l'accessibilità in scenari reali. Catturare istruzioni visive è particolarmente impegnativo perché implica estrarre le intenzioni sottostanti esclusivamente da dimostrazioni visive e poi applicare questa operazione a una nuova immagine. Per affrontare questa sfida, formuliamo l'apprendimento delle istruzioni visive come un problema di inpainting basato sulla diffusione, in cui le informazioni contestuali vengono sfruttate appieno attraverso un processo iterativo di generazione. Un encoder di prompt visivi è stato accuratamente progettato per migliorare la capacità del modello di scoprire l'intenzione umana dietro le istruzioni visive. Esperimenti estensivi dimostrano che il nostro metodo genera risultati di manipolazione coinvolgenti conformi alle trasformazioni implicite nelle dimostrazioni. Inoltre, il nostro modello mostra robuste capacità di generalizzazione su varie attività downstream come il trasferimento di pose, la traduzione di immagini e l'inpainting video.
English
While language-guided image manipulation has made remarkable progress, the
challenge of how to instruct the manipulation process faithfully reflecting
human intentions persists. An accurate and comprehensive description of a
manipulation task using natural language is laborious and sometimes even
impossible, primarily due to the inherent uncertainty and ambiguity present in
linguistic expressions. Is it feasible to accomplish image manipulation without
resorting to external cross-modal language information? If this possibility
exists, the inherent modality gap would be effortlessly eliminated. In this
paper, we propose a novel manipulation methodology, dubbed ImageBrush, that
learns visual instructions for more accurate image editing. Our key idea is to
employ a pair of transformation images as visual instructions, which not only
precisely captures human intention but also facilitates accessibility in
real-world scenarios. Capturing visual instructions is particularly challenging
because it involves extracting the underlying intentions solely from visual
demonstrations and then applying this operation to a new image. To address this
challenge, we formulate visual instruction learning as a diffusion-based
inpainting problem, where the contextual information is fully exploited through
an iterative process of generation. A visual prompting encoder is carefully
devised to enhance the model's capacity in uncovering human intent behind the
visual instructions. Extensive experiments show that our method generates
engaging manipulation results conforming to the transformations entailed in
demonstrations. Moreover, our model exhibits robust generalization capabilities
on various downstream tasks such as pose transfer, image translation and video
inpainting.