ChatPaper.aiChatPaper

ImageBrush: Erlernen visueller In-Context-Anweisungen für exemplarbasierte Bildmanipulation

ImageBrush: Learning Visual In-Context Instructions for Exemplar-Based Image Manipulation

August 2, 2023
Autoren: Yasheng Sun, Yifan Yang, Houwen Peng, Yifei Shen, Yuqing Yang, Han Hu, Lili Qiu, Hideki Koike
cs.AI

Zusammenfassung

Während die sprachgesteuerte Bildmanipulation bemerkenswerte Fortschritte gemacht hat, bleibt die Herausforderung bestehen, den Manipulationsprozess so zu steuern, dass er die menschlichen Absichten treu widerspiegelt. Eine präzise und umfassende Beschreibung einer Manipulationsaufgabe mithilfe natürlicher Sprache ist mühsam und manchmal sogar unmöglich, vor allem aufgrund der inhärenten Unsicherheit und Mehrdeutigkeit, die in sprachlichen Ausdrücken vorhanden ist. Ist es möglich, Bildmanipulationen ohne Rückgriff auf externe cross-modale Sprachinformationen durchzuführen? Wenn diese Möglichkeit besteht, würde die inhärente Modallitätslücke mühelos überwunden werden. In diesem Artikel schlagen wir eine neuartige Manipulationsmethodik vor, die wir ImageBrush nennen und die visuelle Anweisungen für eine präzisere Bildbearbeitung erlernt. Unser zentraler Ansatz besteht darin, ein Paar von Transformationsbildern als visuelle Anweisungen zu verwenden, die nicht nur die menschliche Absicht präzise erfassen, sondern auch die Zugänglichkeit in realen Szenarien erleichtern. Die Erfassung visueller Anweisungen ist besonders herausfordernd, da sie das Extrahieren der zugrunde liegenden Absichten ausschließlich aus visuellen Demonstrationen und die anschließende Anwendung dieser Operation auf ein neues Bild beinhaltet. Um diese Herausforderung zu bewältigen, formulieren wir das Lernen visueller Anweisungen als ein diffusionsbasiertes Inpainting-Problem, bei dem die kontextuellen Informationen durch einen iterativen Generierungsprozess vollständig ausgeschöpft werden. Ein visueller Prompting-Encoder wird sorgfältig entwickelt, um die Fähigkeit des Modells zu verbessern, die menschliche Absicht hinter den visuellen Anweisungen zu entschlüsseln. Umfangreiche Experimente zeigen, dass unsere Methode ansprechende Manipulationsergebnisse erzeugt, die den in den Demonstrationen enthaltenen Transformationen entsprechen. Darüber hinaus zeigt unser Modell robuste Generalisierungsfähigkeiten bei verschiedenen Downstream-Aufgaben wie Posentransfer, Bildübersetzung und Video-Inpainting.
English
While language-guided image manipulation has made remarkable progress, the challenge of how to instruct the manipulation process faithfully reflecting human intentions persists. An accurate and comprehensive description of a manipulation task using natural language is laborious and sometimes even impossible, primarily due to the inherent uncertainty and ambiguity present in linguistic expressions. Is it feasible to accomplish image manipulation without resorting to external cross-modal language information? If this possibility exists, the inherent modality gap would be effortlessly eliminated. In this paper, we propose a novel manipulation methodology, dubbed ImageBrush, that learns visual instructions for more accurate image editing. Our key idea is to employ a pair of transformation images as visual instructions, which not only precisely captures human intention but also facilitates accessibility in real-world scenarios. Capturing visual instructions is particularly challenging because it involves extracting the underlying intentions solely from visual demonstrations and then applying this operation to a new image. To address this challenge, we formulate visual instruction learning as a diffusion-based inpainting problem, where the contextual information is fully exploited through an iterative process of generation. A visual prompting encoder is carefully devised to enhance the model's capacity in uncovering human intent behind the visual instructions. Extensive experiments show that our method generates engaging manipulation results conforming to the transformations entailed in demonstrations. Moreover, our model exhibits robust generalization capabilities on various downstream tasks such as pose transfer, image translation and video inpainting.
PDF130December 15, 2024