ImageBrush: 예제 기반 이미지 조작을 위한 시각적 인-컨텍스트 명령 학습
ImageBrush: Learning Visual In-Context Instructions for Exemplar-Based Image Manipulation
August 2, 2023
저자: Yasheng Sun, Yifan Yang, Houwen Peng, Yifei Shen, Yuqing Yang, Han Hu, Lili Qiu, Hideki Koike
cs.AI
초록
언어 기반 이미지 조작이 놀라운 발전을 이루었음에도 불구하고, 인간의 의도를 충실히 반영한 조작 과정을 어떻게 지시할 것인가라는 과제는 여전히 남아 있습니다. 자연어를 사용하여 조작 작업을 정확하고 포괄적으로 설명하는 것은 노력이 많이 들며, 언어 표현에 내재된 불확실성과 모호성으로 인해 때로는 불가능하기까지 합니다. 외부의 교차 모달 언어 정보에 의존하지 않고 이미지 조작을 수행하는 것이 가능할까요? 이러한 가능성이 존재한다면, 내재된 모달리티 간의 격차는 쉽게 해소될 것입니다. 본 논문에서는 더 정확한 이미지 편집을 위한 시각적 지침을 학습하는 새로운 조작 방법론인 ImageBrush를 제안합니다. 우리의 핵심 아이디어는 변환 이미지 쌍을 시각적 지침으로 사용하는 것으로, 이는 인간의 의도를 정확히 포착할 뿐만 아니라 실제 시나리오에서의 접근성을 용이하게 합니다. 시각적 지침을 포착하는 것은 특히 어려운 과제인데, 이는 시각적 데모로부터 내재된 의도를 추출한 후 이를 새로운 이미지에 적용하는 과정을 포함하기 때문입니다. 이 문제를 해결하기 위해, 우리는 시각적 지침 학습을 확산 기반의 인페인팅 문제로 공식화하며, 이 과정에서 반복적인 생성 과정을 통해 문맥 정보를 충분히 활용합니다. 시각적 프롬프트 인코더는 시각적 지침 뒤에 숨겨진 인간의 의도를 발견하는 모델의 능력을 강화하기 위해 신중하게 설계되었습니다. 광범위한 실험을 통해 우리의 방법이 데모에 포함된 변환을 따르는 매력적인 조작 결과를 생성함을 보여줍니다. 또한, 우리 모델은 포즈 전이, 이미지 변환, 비디오 인페인팅과 같은 다양한 하위 작업에서 강력한 일반화 능력을 보여줍니다.
English
While language-guided image manipulation has made remarkable progress, the
challenge of how to instruct the manipulation process faithfully reflecting
human intentions persists. An accurate and comprehensive description of a
manipulation task using natural language is laborious and sometimes even
impossible, primarily due to the inherent uncertainty and ambiguity present in
linguistic expressions. Is it feasible to accomplish image manipulation without
resorting to external cross-modal language information? If this possibility
exists, the inherent modality gap would be effortlessly eliminated. In this
paper, we propose a novel manipulation methodology, dubbed ImageBrush, that
learns visual instructions for more accurate image editing. Our key idea is to
employ a pair of transformation images as visual instructions, which not only
precisely captures human intention but also facilitates accessibility in
real-world scenarios. Capturing visual instructions is particularly challenging
because it involves extracting the underlying intentions solely from visual
demonstrations and then applying this operation to a new image. To address this
challenge, we formulate visual instruction learning as a diffusion-based
inpainting problem, where the contextual information is fully exploited through
an iterative process of generation. A visual prompting encoder is carefully
devised to enhance the model's capacity in uncovering human intent behind the
visual instructions. Extensive experiments show that our method generates
engaging manipulation results conforming to the transformations entailed in
demonstrations. Moreover, our model exhibits robust generalization capabilities
on various downstream tasks such as pose transfer, image translation and video
inpainting.