MultiEdit: Fortschrittliche instruktionsbasierte Bildbearbeitung bei vielfältigen und anspruchsvollen Aufgaben
MultiEdit: Advancing Instruction-based Image Editing on Diverse and Challenging Tasks
September 18, 2025
papers.authors: Mingsong Li, Lin Liu, Hongjun Wang, Haoxing Chen, Xijun Gu, Shizhan Liu, Dong Gong, Junbo Zhao, Zhenzhong Lan, Jianguo Li
cs.AI
papers.abstract
Aktuelle Methoden zur bildbasierten Bearbeitung durch Anweisungen (Instruction-Based Image Editing, IBIE) haben Schwierigkeiten mit anspruchsvollen Bearbeitungsaufgaben, da sowohl die Bearbeitungstypen als auch die Stichprobenanzahl in bestehenden Datensätzen begrenzt sind. Darüber hinaus enthalten traditionelle Datensatzkonstruktionen oft verrauschte Bild-Beschreibungs-Paare, die Vorurteile einführen und die Modellfähigkeiten in komplexen Bearbeitungsszenarien einschränken können. Um diese Einschränkungen zu überwinden, stellen wir MultiEdit vor, einen umfassenden Datensatz mit über 107.000 hochwertigen Bildbearbeitungsbeispielen. Er umfasst 6 anspruchsvolle Bearbeitungsaufgaben durch eine vielfältige Sammlung von 18 nicht-stilübertragenden Bearbeitungstypen und 38 Stiltransferoperationen, die ein Spektrum von anspruchsvollem Stiltransfer bis hin zu komplexen semantischen Operationen wie Personenreferenzbearbeitung und Textbearbeitung innerhalb von Bildern abdecken. Wir verwenden eine neuartige Datensatzkonstruktionspipeline, die zwei multimodale große Sprachmodelle (MLLMs) nutzt, um visuell adaptive Bearbeitungsanweisungen zu generieren und hochwertige bearbeitete Bilder zu erzeugen. Umfangreiche Experimente zeigen, dass das Feinabstimmen grundlegender Open-Source-Modelle mit unserem MultiEdit-Train-Datensatz die Leistung der Modelle bei anspruchsvollen Bearbeitungsaufgaben in unserem vorgeschlagenen MultiEdit-Test-Benchmark erheblich verbessert, während ihre Fähigkeiten im Standard-Bearbeitungsbenchmark effektiv erhalten bleiben. Wir glauben, dass MultiEdit eine wertvolle Ressource für die Weiterentwicklung der Forschung zu vielfältigeren und anspruchsvolleren IBIE-Fähigkeiten darstellt. Unser Datensatz ist verfügbar unter https://huggingface.co/datasets/inclusionAI/MultiEdit.
English
Current instruction-based image editing (IBIE) methods struggle with
challenging editing tasks, as both editing types and sample counts of existing
datasets are limited. Moreover, traditional dataset construction often contains
noisy image-caption pairs, which may introduce biases and limit model
capabilities in complex editing scenarios. To address these limitations, we
introduce MultiEdit, a comprehensive dataset featuring over 107K high-quality
image editing samples. It encompasses 6 challenging editing tasks through a
diverse collection of 18 non-style-transfer editing types and 38 style transfer
operations, covering a spectrum from sophisticated style transfer to complex
semantic operations like person reference editing and in-image text editing. We
employ a novel dataset construction pipeline that utilizes two multi-modal
large language models (MLLMs) to generate visual-adaptive editing instructions
and produce high-fidelity edited images, respectively. Extensive experiments
demonstrate that fine-tuning foundational open-source models with our
MultiEdit-Train set substantially improves models' performance on sophisticated
editing tasks in our proposed MultiEdit-Test benchmark, while effectively
preserving their capabilities on the standard editing benchmark. We believe
MultiEdit provides a valuable resource for advancing research into more diverse
and challenging IBIE capabilities. Our dataset is available at
https://huggingface.co/datasets/inclusionAI/MultiEdit.