ChatPaper.aiChatPaper

BrushEdit: Все-в-одном восстановление и редактирование изображений.

BrushEdit: All-In-One Image Inpainting and Editing

December 13, 2024
Авторы: Yaowei Li, Yuxuan Bian, Xuan Ju, Zhaoyang Zhang, Ying Shan, Qiang Xu
cs.AI

Аннотация

Редактирование изображений значительно продвинулось с развитием моделей диффузии, использующих как методы на основе инверсии, так и методы на основе инструкций. Однако текущие подходы на основе инверсии испытывают трудности с крупными модификациями (например, добавлением или удалением объектов) из-за структурированной природы шума инверсии, что затрудняет существенные изменения. Тем временем методы на основе инструкций часто ограничивают пользователей операциями "черного ящика", что ограничивает прямое взаимодействие для указания областей редактирования и интенсивности. Для решения этих ограничений мы предлагаем BrushEdit, новую парадигму редактирования изображений на основе заполнения пропусков с управлением инструкциями, которая использует мультимодельные большие языковые модели (MLLM) и модели заполнения изображений для обеспечения автономного, удобного для пользователя и интерактивного свободного редактирования по инструкциям. Конкретно, мы разрабатываем систему, позволяющую свободное редактирование по инструкциям путем интеграции MLLM и двухветвевой модели заполнения изображений в агентно-кооперативной структуре для выполнения классификации категорий редактирования, идентификации основных объектов, получения маски и заполнения области редактирования. Обширные эксперименты показывают, что наша структура эффективно сочетает MLLM и модели заполнения, достигая превосходных показателей по семи метрикам, включая сохранение области маски и согласованность эффекта редактирования.
English
Image editing has advanced significantly with the development of diffusion models using both inversion-based and instruction-based methods. However, current inversion-based approaches struggle with big modifications (e.g., adding or removing objects) due to the structured nature of inversion noise, which hinders substantial changes. Meanwhile, instruction-based methods often constrain users to black-box operations, limiting direct interaction for specifying editing regions and intensity. To address these limitations, we propose BrushEdit, a novel inpainting-based instruction-guided image editing paradigm, which leverages multimodal large language models (MLLMs) and image inpainting models to enable autonomous, user-friendly, and interactive free-form instruction editing. Specifically, we devise a system enabling free-form instruction editing by integrating MLLMs and a dual-branch image inpainting model in an agent-cooperative framework to perform editing category classification, main object identification, mask acquisition, and editing area inpainting. Extensive experiments show that our framework effectively combines MLLMs and inpainting models, achieving superior performance across seven metrics including mask region preservation and editing effect coherence.

Summary

AI-Generated Summary

PDF353December 17, 2024