Редактирование изображений без обучения с использованием имитации по образцу.
Zero-shot Image Editing with Reference Imitation
June 11, 2024
Авторы: Xi Chen, Yutong Feng, Mengting Chen, Yiyang Wang, Shilong Zhang, Yu Liu, Yujun Shen, Hengshuang Zhao
cs.AI
Аннотация
Редактирование изображений является практической, но сложной задачей, учитывая разнообразные требования пользователей, где одной из самых сложных частей является точное описание того, как должно выглядеть отредактированное изображение. В данной работе мы представляем новую форму редактирования, названную имитационным редактированием, чтобы помочь пользователям более удобно проявлять свою креативность. Конкретно, для редактирования области интереса на изображении пользователи могут свободно черпать вдохновение из некоторых случайных ссылок (например, некоторые относящиеся к теме изображения, найденные онлайн), не беспокоясь о соответствии между эталоном и исходным изображением. Такой подход требует, чтобы система автоматически определяла, что ожидать от эталона для выполнения редактирования. Для этой цели мы предлагаем генеративную обучающую структуру, названную MimicBrush, которая случайным образом выбирает два кадра из видеоклипа, маскирует некоторые области одного кадра и учится восстанавливать закрытые области, используя информацию из другого кадра. Таким образом, наша модель, разработанная на основе диффузионного априорного распределения, способна захватывать семантическую соответственность между отдельными изображениями самостоятельным образом. Мы экспериментально демонстрируем эффективность нашего метода в различных тестовых случаях, а также его превосходство над существующими альтернативами. Мы также создаем бенчмарк для упрощения дальнейших исследований.
English
Image editing serves as a practical yet challenging task considering the
diverse demands from users, where one of the hardest parts is to precisely
describe how the edited image should look like. In this work, we present a new
form of editing, termed imitative editing, to help users exercise their
creativity more conveniently. Concretely, to edit an image region of interest,
users are free to directly draw inspiration from some in-the-wild references
(e.g., some relative pictures come across online), without having to cope with
the fit between the reference and the source. Such a design requires the system
to automatically figure out what to expect from the reference to perform the
editing. For this purpose, we propose a generative training framework, dubbed
MimicBrush, which randomly selects two frames from a video clip, masks some
regions of one frame, and learns to recover the masked regions using the
information from the other frame. That way, our model, developed from a
diffusion prior, is able to capture the semantic correspondence between
separate images in a self-supervised manner. We experimentally show the
effectiveness of our method under various test cases as well as its superiority
over existing alternatives. We also construct a benchmark to facilitate further
research.Summary
AI-Generated Summary