ChatPaper.aiChatPaper

ImageBrush : Apprentissage d'instructions visuelles en contexte pour la manipulation d'images basée sur des exemples

ImageBrush: Learning Visual In-Context Instructions for Exemplar-Based Image Manipulation

August 2, 2023
Auteurs: Yasheng Sun, Yifan Yang, Houwen Peng, Yifei Shen, Yuqing Yang, Han Hu, Lili Qiu, Hideki Koike
cs.AI

Résumé

Bien que la manipulation d'images guidée par le langage ait réalisé des progrès remarquables, le défi de savoir comment instruire le processus de manipulation en reflétant fidèlement les intentions humaines persiste. Une description précise et complète d'une tâche de manipulation en utilisant le langage naturel est laborieuse et parfois même impossible, principalement en raison de l'incertitude et de l'ambiguïté inhérentes aux expressions linguistiques. Est-il possible d'accomplir la manipulation d'images sans recourir à des informations intermodales externes issues du langage ? Si cette possibilité existe, l'écart modal inhérent serait facilement éliminé. Dans cet article, nous proposons une nouvelle méthodologie de manipulation, baptisée ImageBrush, qui apprend des instructions visuelles pour un éditing d'image plus précis. Notre idée clé est d'utiliser une paire d'images de transformation comme instructions visuelles, qui capturent non seulement avec précision l'intention humaine, mais facilitent également l'accessibilité dans des scénarios réels. La capture d'instructions visuelles est particulièrement difficile car elle implique d'extraire les intentions sous-jacentes uniquement à partir de démonstrations visuelles, puis d'appliquer cette opération à une nouvelle image. Pour relever ce défi, nous formulons l'apprentissage des instructions visuelles comme un problème d'inpainting basé sur la diffusion, où l'information contextuelle est pleinement exploitée à travers un processus itératif de génération. Un encodeur d'invite visuelle est soigneusement conçu pour améliorer la capacité du modèle à découvrir l'intention humaine derrière les instructions visuelles. Des expériences approfondies montrent que notre méthode génère des résultats de manipulation captivants conformes aux transformations impliquées dans les démonstrations. De plus, notre modèle présente des capacités de généralisation robustes sur diverses tâches en aval telles que le transfert de pose, la traduction d'images et l'inpainting vidéo.
English
While language-guided image manipulation has made remarkable progress, the challenge of how to instruct the manipulation process faithfully reflecting human intentions persists. An accurate and comprehensive description of a manipulation task using natural language is laborious and sometimes even impossible, primarily due to the inherent uncertainty and ambiguity present in linguistic expressions. Is it feasible to accomplish image manipulation without resorting to external cross-modal language information? If this possibility exists, the inherent modality gap would be effortlessly eliminated. In this paper, we propose a novel manipulation methodology, dubbed ImageBrush, that learns visual instructions for more accurate image editing. Our key idea is to employ a pair of transformation images as visual instructions, which not only precisely captures human intention but also facilitates accessibility in real-world scenarios. Capturing visual instructions is particularly challenging because it involves extracting the underlying intentions solely from visual demonstrations and then applying this operation to a new image. To address this challenge, we formulate visual instruction learning as a diffusion-based inpainting problem, where the contextual information is fully exploited through an iterative process of generation. A visual prompting encoder is carefully devised to enhance the model's capacity in uncovering human intent behind the visual instructions. Extensive experiments show that our method generates engaging manipulation results conforming to the transformations entailed in demonstrations. Moreover, our model exhibits robust generalization capabilities on various downstream tasks such as pose transfer, image translation and video inpainting.
PDF130December 15, 2024