BrushEdit: Edición e Inpainting de Imágenes Todo en Uno
BrushEdit: All-In-One Image Inpainting and Editing
December 13, 2024
Autores: Yaowei Li, Yuxuan Bian, Xuan Ju, Zhaoyang Zhang, Ying Shan, Qiang Xu
cs.AI
Resumen
La edición de imágenes ha avanzado significativamente con el desarrollo de modelos de difusión que utilizan tanto métodos basados en inversión como basados en instrucciones. Sin embargo, los enfoques actuales basados en inversión tienen dificultades con modificaciones importantes (por ejemplo, agregar o quitar objetos) debido a la naturaleza estructurada del ruido de inversión, lo que dificulta cambios sustanciales. Mientras tanto, los métodos basados en instrucciones a menudo limitan a los usuarios a operaciones de caja negra, lo que restringe la interacción directa para especificar regiones de edición e intensidad. Para abordar estas limitaciones, proponemos BrushEdit, un novedoso paradigma de edición de imágenes guiado por instrucciones basado en inpainting, que aprovecha modelos de lenguaje grandes multimodales (MLLMs) y modelos de inpainting de imágenes para permitir una edición autónoma, amigable e interactiva mediante instrucciones de forma libre. Específicamente, diseñamos un sistema que permite la edición de instrucciones de forma libre mediante la integración de MLLMs y un modelo de inpainting de imágenes de doble rama en un marco cooperativo de agentes para realizar clasificación de categorías de edición, identificación de objetos principales, adquisición de máscaras y inpainting de áreas de edición. Experimentos extensos muestran que nuestro marco combina de manera efectiva MLLMs y modelos de inpainting, logrando un rendimiento superior en siete métricas, incluida la preservación de regiones de máscara y la coherencia del efecto de edición.
English
Image editing has advanced significantly with the development of diffusion
models using both inversion-based and instruction-based methods. However,
current inversion-based approaches struggle with big modifications (e.g.,
adding or removing objects) due to the structured nature of inversion noise,
which hinders substantial changes. Meanwhile, instruction-based methods often
constrain users to black-box operations, limiting direct interaction for
specifying editing regions and intensity. To address these limitations, we
propose BrushEdit, a novel inpainting-based instruction-guided image editing
paradigm, which leverages multimodal large language models (MLLMs) and image
inpainting models to enable autonomous, user-friendly, and interactive
free-form instruction editing. Specifically, we devise a system enabling
free-form instruction editing by integrating MLLMs and a dual-branch image
inpainting model in an agent-cooperative framework to perform editing category
classification, main object identification, mask acquisition, and editing area
inpainting. Extensive experiments show that our framework effectively combines
MLLMs and inpainting models, achieving superior performance across seven
metrics including mask region preservation and editing effect coherence.Summary
AI-Generated Summary