ChatPaper.aiChatPaper

BrushEdit: Alles-in-einem Bildinpainting und Bearbeitung

BrushEdit: All-In-One Image Inpainting and Editing

December 13, 2024
Autoren: Yaowei Li, Yuxuan Bian, Xuan Ju, Zhaoyang Zhang, Ying Shan, Qiang Xu
cs.AI

Zusammenfassung

Die Bildbearbeitung hat sich erheblich weiterentwickelt durch die Entwicklung von Diffusionsmodellen, die sowohl auf Inversions- als auch auf Anweisungsbasierten Methoden beruhen. Allerdings haben aktuelle Inversionsansätze Schwierigkeiten mit großen Modifikationen (z. B. Hinzufügen oder Entfernen von Objekten) aufgrund der strukturierten Natur des Inversionsrauschens, was wesentliche Änderungen behindert. Andererseits beschränken Anweisungsbasierte Methoden die Benutzer oft auf Black-Box-Operationen, was die direkte Interaktion zur Spezifizierung von Bearbeitungsregionen und Intensität einschränkt. Um diese Einschränkungen zu beheben, schlagen wir BrushEdit vor, ein neuartiges Inpainting-basiertes, anweisungsgesteuertes Bildbearbeitungsparadigma, das auf multimodalen großen Sprachmodellen (MLLMs) und Bildinpainting-Modellen basiert, um autonome, benutzerfreundliche und interaktive freiformale Anweisungsbearbeitung zu ermöglichen. Konkret entwickeln wir ein System, das freiformale Anweisungsbearbeitung durch Integration von MLLMs und einem Dual-Branch-Bildinpainting-Modell in einem agentenkooperativen Rahmen ermöglicht, um Bearbeitungskategorienklassifizierung, Hauptobjektidentifikation, Maskenerwerb und Bearbeitungsbereichsinpainting durchzuführen. Umfangreiche Experimente zeigen, dass unser Framework MLLMs und Inpainting-Modelle effektiv kombiniert und über sieben Metriken hinweg eine überlegene Leistung erzielt, einschließlich Maskenregionserhaltung und Bearbeitungseffektkohärenz.
English
Image editing has advanced significantly with the development of diffusion models using both inversion-based and instruction-based methods. However, current inversion-based approaches struggle with big modifications (e.g., adding or removing objects) due to the structured nature of inversion noise, which hinders substantial changes. Meanwhile, instruction-based methods often constrain users to black-box operations, limiting direct interaction for specifying editing regions and intensity. To address these limitations, we propose BrushEdit, a novel inpainting-based instruction-guided image editing paradigm, which leverages multimodal large language models (MLLMs) and image inpainting models to enable autonomous, user-friendly, and interactive free-form instruction editing. Specifically, we devise a system enabling free-form instruction editing by integrating MLLMs and a dual-branch image inpainting model in an agent-cooperative framework to perform editing category classification, main object identification, mask acquisition, and editing area inpainting. Extensive experiments show that our framework effectively combines MLLMs and inpainting models, achieving superior performance across seven metrics including mask region preservation and editing effect coherence.

Summary

AI-Generated Summary

PDF353December 17, 2024