참조 이미지 모방을 통한 제로샷 이미지 편집
Zero-shot Image Editing with Reference Imitation
June 11, 2024
저자: Xi Chen, Yutong Feng, Mengting Chen, Yiyang Wang, Shilong Zhang, Yu Liu, Yujun Shen, Hengshuang Zhao
cs.AI
초록
이미지 편집은 사용자들의 다양한 요구를 고려할 때 실용적이면서도 도전적인 작업으로, 가장 어려운 부분 중 하나는 편집된 이미지가 어떻게 보여야 하는지를 정확히 설명하는 것입니다. 본 연구에서는 사용자가 더 편리하게 창의력을 발휘할 수 있도록 돕기 위해 모방 편집(imitative editing)이라는 새로운 형태의 편집 방식을 제안합니다. 구체적으로, 관심 있는 이미지 영역을 편집하기 위해 사용자는 온라인에서 마주친 관련 사진과 같은 실제 참조 자료로부터 직접 영감을 얻을 수 있으며, 참조 자료와 원본 간의 적합성을 고민할 필요가 없습니다. 이러한 설계를 통해 시스템은 참조 자료로부터 무엇을 기대해야 하는지를 자동으로 파악하여 편집을 수행할 수 있습니다. 이를 위해, 우리는 MimicBrush라는 생성적 훈련 프레임워크를 제안합니다. 이 프레임워크는 비디오 클립에서 두 프레임을 무작위로 선택하고, 한 프레임의 일부 영역을 마스킹한 후, 다른 프레임의 정보를 사용하여 마스킹된 영역을 복원하는 방법을 학습합니다. 이를 통해, 확산 모델(diffusion prior)에서 개발된 우리의 모델은 별도의 이미지 간의 의미적 대응 관계를 자기 지도 방식으로 포착할 수 있습니다. 우리는 다양한 테스트 케이스에서 우리의 방법의 효과를 실험적으로 보여주고, 기존 대안들에 비해 우수성을 입증합니다. 또한, 추가 연구를 촉진하기 위한 벤치마크를 구축합니다.
English
Image editing serves as a practical yet challenging task considering the
diverse demands from users, where one of the hardest parts is to precisely
describe how the edited image should look like. In this work, we present a new
form of editing, termed imitative editing, to help users exercise their
creativity more conveniently. Concretely, to edit an image region of interest,
users are free to directly draw inspiration from some in-the-wild references
(e.g., some relative pictures come across online), without having to cope with
the fit between the reference and the source. Such a design requires the system
to automatically figure out what to expect from the reference to perform the
editing. For this purpose, we propose a generative training framework, dubbed
MimicBrush, which randomly selects two frames from a video clip, masks some
regions of one frame, and learns to recover the masked regions using the
information from the other frame. That way, our model, developed from a
diffusion prior, is able to capture the semantic correspondence between
separate images in a self-supervised manner. We experimentally show the
effectiveness of our method under various test cases as well as its superiority
over existing alternatives. We also construct a benchmark to facilitate further
research.Summary
AI-Generated Summary