ChatPaper.aiChatPaper

BrushEdit: Alles-in-één beeldinpainting en bewerking

BrushEdit: All-In-One Image Inpainting and Editing

December 13, 2024
Auteurs: Yaowei Li, Yuxuan Bian, Xuan Ju, Zhaoyang Zhang, Ying Shan, Qiang Xu
cs.AI

Samenvatting

Beeldbewerking heeft aanzienlijke vooruitgang geboekt met de ontwikkeling van diffusiemodellen die zowel op inversie gebaseerde als op instructie gebaseerde methoden gebruiken. Echter, huidige inversie-gebaseerde benaderingen worstelen met grote wijzigingen (bijv. toevoegen of verwijderen van objecten) vanwege de gestructureerde aard van inversieruis, wat aanzienlijke veranderingen belemmert. Ondertussen beperken op instructies gebaseerde methoden gebruikers vaak tot black-box bewerkingen, waardoor directe interactie voor het specificeren van bewerkingsgebieden en intensiteit wordt beperkt. Om deze beperkingen aan te pakken, stellen we BrushEdit voor, een nieuw inpaing-gebaseerd instructie-geleid beeldbewerkingsparadigma, dat gebruikmaakt van multimodale grote taalmodellen (MLLM's) en beeldinpaintingmodellen om autonome, gebruiksvriendelijke en interactieve vrije instructiebewerking mogelijk te maken. Specifiek ontwerpen we een systeem dat vrije instructiebewerking mogelijk maakt door MLLM's en een dubbelvertakkend beeldinpaintingmodel te integreren in een agent-coöperatief kader om bewerkingscategorieclassificatie, identificatie van hoofdobjecten, maskerverwerving en het inpainten van bewerkingsgebieden uit te voeren. Uitgebreide experimenten tonen aan dat ons kader effectief MLLM's en inpaintingmodellen combineert, met superieure prestaties op zeven metrieken, waaronder behoud van maskerregio's en coherentie van bewerkingseffecten.
English
Image editing has advanced significantly with the development of diffusion models using both inversion-based and instruction-based methods. However, current inversion-based approaches struggle with big modifications (e.g., adding or removing objects) due to the structured nature of inversion noise, which hinders substantial changes. Meanwhile, instruction-based methods often constrain users to black-box operations, limiting direct interaction for specifying editing regions and intensity. To address these limitations, we propose BrushEdit, a novel inpainting-based instruction-guided image editing paradigm, which leverages multimodal large language models (MLLMs) and image inpainting models to enable autonomous, user-friendly, and interactive free-form instruction editing. Specifically, we devise a system enabling free-form instruction editing by integrating MLLMs and a dual-branch image inpainting model in an agent-cooperative framework to perform editing category classification, main object identification, mask acquisition, and editing area inpainting. Extensive experiments show that our framework effectively combines MLLMs and inpainting models, achieving superior performance across seven metrics including mask region preservation and editing effect coherence.
PDF353December 17, 2024