ImageBrush:エキスパートベースの画像操作のための視覚的インコンテキスト命令の学習
ImageBrush: Learning Visual In-Context Instructions for Exemplar-Based Image Manipulation
August 2, 2023
著者: Yasheng Sun, Yifan Yang, Houwen Peng, Yifei Shen, Yuqing Yang, Han Hu, Lili Qiu, Hideki Koike
cs.AI
要旨
言語誘導型の画像操作が著しい進歩を遂げている一方で、人間の意図を忠実に反映した操作プロセスを指示する方法に関する課題は依然として残されている。自然言語を用いて操作タスクを正確かつ包括的に記述することは労力を要し、時には不可能でさえある。これは主に、言語表現に内在する不確実性と曖昧性によるものである。外部のクロスモーダルな言語情報に頼らずに画像操作を実現することは可能だろうか?もしこの可能性が存在するならば、内在するモダリティ間のギャップは容易に解消されるだろう。本論文では、より正確な画像編集のための視覚的指示を学習する新しい操作手法「ImageBrush」を提案する。我々のキーアイデアは、変換画像のペアを視覚的指示として用いることであり、これにより人間の意図を正確に捉えるだけでなく、実世界のシナリオでのアクセシビリティも向上する。視覚的指示を捉えることは特に困難である。なぜなら、視覚的なデモンストレーションから潜在的な意図を抽出し、その操作を新しい画像に適用する必要があるからだ。この課題に対処するため、我々は視覚的指示学習を拡散ベースのインペインティング問題として定式化し、生成の反復プロセスを通じて文脈情報を十分に活用する。視覚的指示の背後にある人間の意図を解明するためのモデルの能力を強化するために、視覚的プロンプトエンコーダを慎重に設計した。大規模な実験により、我々の手法がデモンストレーションに含まれる変換に従った魅力的な操作結果を生成することが示された。さらに、我々のモデルは、ポーズ転送、画像変換、ビデオインペインティングといった様々な下流タスクにおいて、堅牢な汎化能力を示している。
English
While language-guided image manipulation has made remarkable progress, the
challenge of how to instruct the manipulation process faithfully reflecting
human intentions persists. An accurate and comprehensive description of a
manipulation task using natural language is laborious and sometimes even
impossible, primarily due to the inherent uncertainty and ambiguity present in
linguistic expressions. Is it feasible to accomplish image manipulation without
resorting to external cross-modal language information? If this possibility
exists, the inherent modality gap would be effortlessly eliminated. In this
paper, we propose a novel manipulation methodology, dubbed ImageBrush, that
learns visual instructions for more accurate image editing. Our key idea is to
employ a pair of transformation images as visual instructions, which not only
precisely captures human intention but also facilitates accessibility in
real-world scenarios. Capturing visual instructions is particularly challenging
because it involves extracting the underlying intentions solely from visual
demonstrations and then applying this operation to a new image. To address this
challenge, we formulate visual instruction learning as a diffusion-based
inpainting problem, where the contextual information is fully exploited through
an iterative process of generation. A visual prompting encoder is carefully
devised to enhance the model's capacity in uncovering human intent behind the
visual instructions. Extensive experiments show that our method generates
engaging manipulation results conforming to the transformations entailed in
demonstrations. Moreover, our model exhibits robust generalization capabilities
on various downstream tasks such as pose transfer, image translation and video
inpainting.