Nullschuss-Bildbearbeitung mit Referenzimitation

papers.abstract

Die Bearbeitung von Bildern stellt eine praktische, aber anspruchsvolle Aufgabe dar, wenn man die vielfältigen Anforderungen der Benutzer berücksichtigt, wobei eine der schwierigsten Aufgaben darin besteht, präzise zu beschreiben, wie das bearbeitete Bild aussehen soll. In dieser Arbeit stellen wir eine neue Form der Bearbeitung vor, die als imitative Bearbeitung bezeichnet wird, um den Benutzern zu helfen, ihre Kreativität bequemer auszuüben. Konkret können Benutzer zur Bearbeitung eines Bildbereichs ihrer Wahl direkt Inspiration aus einigen Referenzen aus der realen Welt ziehen (z. B. einige verwandte Bilder, die online gefunden wurden), ohne sich mit der Anpassung zwischen der Referenz und der Quelle auseinandersetzen zu müssen. Ein solches Design erfordert, dass das System automatisch herausfindet, was von der Referenz erwartet wird, um die Bearbeitung durchzuführen. Zu diesem Zweck schlagen wir ein generatives Schulungsframework namens MimicBrush vor, das zufällig zwei Frames aus einem Videoclip auswählt, einige Regionen eines Frames maskiert und lernt, die maskierten Regionen mithilfe der Informationen aus dem anderen Frame wiederherzustellen. Auf diese Weise kann unser Modell, das auf einem Diffusionsprior basiert, die semantische Entsprechung zwischen separaten Bildern selbstüberwacht erfassen. Wir zeigen experimentell die Wirksamkeit unserer Methode unter verschiedenen Testfällen sowie deren Überlegenheit gegenüber bestehenden Alternativen. Wir erstellen auch einen Benchmark, um weitere Forschung zu erleichtern.

English

Image editing serves as a practical yet challenging task considering the diverse demands from users, where one of the hardest parts is to precisely describe how the edited image should look like. In this work, we present a new form of editing, termed imitative editing, to help users exercise their creativity more conveniently. Concretely, to edit an image region of interest, users are free to directly draw inspiration from some in-the-wild references (e.g., some relative pictures come across online), without having to cope with the fit between the reference and the source. Such a design requires the system to automatically figure out what to expect from the reference to perform the editing. For this purpose, we propose a generative training framework, dubbed MimicBrush, which randomly selects two frames from a video clip, masks some regions of one frame, and learns to recover the masked regions using the information from the other frame. That way, our model, developed from a diffusion prior, is able to capture the semantic correspondence between separate images in a self-supervised manner. We experimentally show the effectiveness of our method under various test cases as well as its superiority over existing alternatives. We also construct a benchmark to facilitate further research.

Nullschuss-Bildbearbeitung mit Referenzimitation

Zero-shot Image Editing with Reference Imitation

papers.abstract

Support