ImageBrush: Обучение визуальным контекстным инструкциям для манипуляции изображениями на основе примеров
ImageBrush: Learning Visual In-Context Instructions for Exemplar-Based Image Manipulation
August 2, 2023
Авторы: Yasheng Sun, Yifan Yang, Houwen Peng, Yifei Shen, Yuqing Yang, Han Hu, Lili Qiu, Hideki Koike
cs.AI
Аннотация
Несмотря на значительный прогресс в области манипуляции изображениями на основе языковых инструкций, проблема того, как точно отразить человеческие намерения в процессе манипуляции, остается актуальной. Точное и всестороннее описание задачи манипуляции с использованием естественного языка является трудоемким, а иногда даже невозможным, главным образом из-за присущей неопределенности и неоднозначности языковых выражений. Возможно ли выполнить манипуляцию изображениями без привлечения внешней кросс-модальной языковой информации? Если такая возможность существует, то присущий модальный разрыв будет устранен без усилий. В данной статье мы предлагаем новую методологию манипуляции, названную ImageBrush, которая обучается визуальным инструкциям для более точного редактирования изображений. Наша ключевая идея заключается в использовании пары трансформационных изображений в качестве визуальных инструкций, которые не только точно отражают человеческие намерения, но и облегчают доступность в реальных сценариях. Захват визуальных инструкций представляет особую сложность, поскольку он предполагает извлечение скрытых намерений исключительно из визуальных демонстраций и последующее применение этой операции к новому изображению. Для решения этой задачи мы формулируем обучение визуальным инструкциям как проблему диффузионного восстановления изображений, где контекстная информация полностью используется в итеративном процессе генерации. Тщательно разработанный визуальный кодировщик подсказок усиливает способность модели раскрывать человеческие намерения, стоящие за визуальными инструкциями. Многочисленные эксперименты показывают, что наш метод генерирует убедительные результаты манипуляции, соответствующие трансформациям, заложенным в демонстрациях. Более того, наша модель демонстрирует устойчивые обобщающие способности в различных последующих задачах, таких как перенос позы, трансляция изображений и восстановление видео.
English
While language-guided image manipulation has made remarkable progress, the
challenge of how to instruct the manipulation process faithfully reflecting
human intentions persists. An accurate and comprehensive description of a
manipulation task using natural language is laborious and sometimes even
impossible, primarily due to the inherent uncertainty and ambiguity present in
linguistic expressions. Is it feasible to accomplish image manipulation without
resorting to external cross-modal language information? If this possibility
exists, the inherent modality gap would be effortlessly eliminated. In this
paper, we propose a novel manipulation methodology, dubbed ImageBrush, that
learns visual instructions for more accurate image editing. Our key idea is to
employ a pair of transformation images as visual instructions, which not only
precisely captures human intention but also facilitates accessibility in
real-world scenarios. Capturing visual instructions is particularly challenging
because it involves extracting the underlying intentions solely from visual
demonstrations and then applying this operation to a new image. To address this
challenge, we formulate visual instruction learning as a diffusion-based
inpainting problem, where the contextual information is fully exploited through
an iterative process of generation. A visual prompting encoder is carefully
devised to enhance the model's capacity in uncovering human intent behind the
visual instructions. Extensive experiments show that our method generates
engaging manipulation results conforming to the transformations entailed in
demonstrations. Moreover, our model exhibits robust generalization capabilities
on various downstream tasks such as pose transfer, image translation and video
inpainting.