BrushEdit : Inpainting et Édition d'Image Tout-en-Un
BrushEdit: All-In-One Image Inpainting and Editing
December 13, 2024
Auteurs: Yaowei Li, Yuxuan Bian, Xuan Ju, Zhaoyang Zhang, Ying Shan, Qiang Xu
cs.AI
Résumé
L'édition d'images a considérablement progressé avec le développement de modèles de diffusion utilisant à la fois des méthodes basées sur l'inversion et des méthodes basées sur des instructions. Cependant, les approches actuelles basées sur l'inversion rencontrent des difficultés avec les modifications importantes (par exemple, l'ajout ou la suppression d'objets) en raison de la nature structurée du bruit d'inversion, ce qui entrave des changements substantiels. Pendant ce temps, les méthodes basées sur des instructions contraignent souvent les utilisateurs à des opérations de boîte noire, limitant l'interaction directe pour spécifier les régions d'édition et l'intensité. Pour remédier à ces limitations, nous proposons BrushEdit, un nouveau paradigme d'édition d'images guidé par des instructions basé sur l'inpainting, qui exploite des modèles de langage multimodaux (MLLMs) et des modèles d'inpainting d'images pour permettre une édition autonome, conviviale et interactive guidée par des instructions en forme libre. Plus précisément, nous concevons un système permettant l'édition guidée par des instructions en forme libre en intégrant des MLLMs et un modèle d'inpainting d'images à double branche dans un cadre coopératif d'agent pour effectuer la classification des catégories d'édition, l'identification des principaux objets, l'acquisition de masques et l'inpainting des zones d'édition. Des expériences approfondies montrent que notre cadre combine efficacement les MLLMs et les modèles d'inpainting, atteignant des performances supérieures sur sept mesures, y compris la préservation de la région du masque et la cohérence de l'effet d'édition.
English
Image editing has advanced significantly with the development of diffusion
models using both inversion-based and instruction-based methods. However,
current inversion-based approaches struggle with big modifications (e.g.,
adding or removing objects) due to the structured nature of inversion noise,
which hinders substantial changes. Meanwhile, instruction-based methods often
constrain users to black-box operations, limiting direct interaction for
specifying editing regions and intensity. To address these limitations, we
propose BrushEdit, a novel inpainting-based instruction-guided image editing
paradigm, which leverages multimodal large language models (MLLMs) and image
inpainting models to enable autonomous, user-friendly, and interactive
free-form instruction editing. Specifically, we devise a system enabling
free-form instruction editing by integrating MLLMs and a dual-branch image
inpainting model in an agent-cooperative framework to perform editing category
classification, main object identification, mask acquisition, and editing area
inpainting. Extensive experiments show that our framework effectively combines
MLLMs and inpainting models, achieving superior performance across seven
metrics including mask region preservation and editing effect coherence.Summary
AI-Generated Summary