Nullschuss-Bildbearbeitung mit Referenzimitation
Zero-shot Image Editing with Reference Imitation
June 11, 2024
Autoren: Xi Chen, Yutong Feng, Mengting Chen, Yiyang Wang, Shilong Zhang, Yu Liu, Yujun Shen, Hengshuang Zhao
cs.AI
Zusammenfassung
Die Bearbeitung von Bildern stellt eine praktische, aber anspruchsvolle Aufgabe dar, wenn man die vielfältigen Anforderungen der Benutzer berücksichtigt, wobei eine der schwierigsten Aufgaben darin besteht, präzise zu beschreiben, wie das bearbeitete Bild aussehen soll. In dieser Arbeit stellen wir eine neue Form der Bearbeitung vor, die als imitative Bearbeitung bezeichnet wird, um den Benutzern zu helfen, ihre Kreativität bequemer auszuüben. Konkret können Benutzer zur Bearbeitung eines Bildbereichs ihrer Wahl direkt Inspiration aus einigen Referenzen aus der realen Welt ziehen (z. B. einige verwandte Bilder, die online gefunden wurden), ohne sich mit der Anpassung zwischen der Referenz und der Quelle auseinandersetzen zu müssen. Ein solches Design erfordert, dass das System automatisch herausfindet, was von der Referenz erwartet wird, um die Bearbeitung durchzuführen. Zu diesem Zweck schlagen wir ein generatives Schulungsframework namens MimicBrush vor, das zufällig zwei Frames aus einem Videoclip auswählt, einige Regionen eines Frames maskiert und lernt, die maskierten Regionen mithilfe der Informationen aus dem anderen Frame wiederherzustellen. Auf diese Weise kann unser Modell, das auf einem Diffusionsprior basiert, die semantische Entsprechung zwischen separaten Bildern selbstüberwacht erfassen. Wir zeigen experimentell die Wirksamkeit unserer Methode unter verschiedenen Testfällen sowie deren Überlegenheit gegenüber bestehenden Alternativen. Wir erstellen auch einen Benchmark, um weitere Forschung zu erleichtern.
English
Image editing serves as a practical yet challenging task considering the
diverse demands from users, where one of the hardest parts is to precisely
describe how the edited image should look like. In this work, we present a new
form of editing, termed imitative editing, to help users exercise their
creativity more conveniently. Concretely, to edit an image region of interest,
users are free to directly draw inspiration from some in-the-wild references
(e.g., some relative pictures come across online), without having to cope with
the fit between the reference and the source. Such a design requires the system
to automatically figure out what to expect from the reference to perform the
editing. For this purpose, we propose a generative training framework, dubbed
MimicBrush, which randomly selects two frames from a video clip, masks some
regions of one frame, and learns to recover the masked regions using the
information from the other frame. That way, our model, developed from a
diffusion prior, is able to capture the semantic correspondence between
separate images in a self-supervised manner. We experimentally show the
effectiveness of our method under various test cases as well as its superiority
over existing alternatives. We also construct a benchmark to facilitate further
research.Summary
AI-Generated Summary