BrushEdit: Edição e Preenchimento de Imagens Tudo-em-Um
BrushEdit: All-In-One Image Inpainting and Editing
December 13, 2024
Autores: Yaowei Li, Yuxuan Bian, Xuan Ju, Zhaoyang Zhang, Ying Shan, Qiang Xu
cs.AI
Resumo
A edição de imagens avançou significativamente com o desenvolvimento de modelos de difusão que utilizam métodos baseados em inversão e baseados em instruções. No entanto, as abordagens atuais baseadas em inversão enfrentam dificuldades com grandes modificações (por exemplo, adicionar ou remover objetos) devido à natureza estruturada do ruído de inversão, o que dificulta mudanças substanciais. Enquanto isso, os métodos baseados em instruções frequentemente restringem os usuários a operações de caixa-preta, limitando a interação direta para especificar regiões de edição e intensidade. Para lidar com essas limitações, propomos o BrushEdit, um novo paradigma de edição de imagens guiado por instruções baseado em inpainting, que aproveita modelos de linguagem multimodais grandes (MLLMs) e modelos de inpainting de imagens para permitir edição autônoma, amigável ao usuário e interativa com instruções de forma livre. Especificamente, desenvolvemos um sistema que permite a edição de instruções de forma livre integrando MLLMs e um modelo de inpainting de imagens de duplo ramo em um framework cooperativo de agentes para realizar classificação de categoria de edição, identificação do objeto principal, aquisição de máscara e inpainting da área de edição. Experimentos extensivos mostram que nosso framework combina efetivamente MLLMs e modelos de inpainting, alcançando desempenho superior em sete métricas, incluindo preservação da região da máscara e coerência do efeito de edição.
English
Image editing has advanced significantly with the development of diffusion
models using both inversion-based and instruction-based methods. However,
current inversion-based approaches struggle with big modifications (e.g.,
adding or removing objects) due to the structured nature of inversion noise,
which hinders substantial changes. Meanwhile, instruction-based methods often
constrain users to black-box operations, limiting direct interaction for
specifying editing regions and intensity. To address these limitations, we
propose BrushEdit, a novel inpainting-based instruction-guided image editing
paradigm, which leverages multimodal large language models (MLLMs) and image
inpainting models to enable autonomous, user-friendly, and interactive
free-form instruction editing. Specifically, we devise a system enabling
free-form instruction editing by integrating MLLMs and a dual-branch image
inpainting model in an agent-cooperative framework to perform editing category
classification, main object identification, mask acquisition, and editing area
inpainting. Extensive experiments show that our framework effectively combines
MLLMs and inpainting models, achieving superior performance across seven
metrics including mask region preservation and editing effect coherence.Summary
AI-Generated Summary