ChatPaper.aiChatPaper

ImgEdit: Ein einheitlicher Datensatz und Benchmark für die Bildbearbeitung

ImgEdit: A Unified Image Editing Dataset and Benchmark

May 26, 2025
Autoren: Yang Ye, Xianyi He, Zongjian Li, Bin Lin, Shenghai Yuan, Zhiyuan Yan, Bohan Hou, Li Yuan
cs.AI

Zusammenfassung

Jüngste Fortschritte bei generativen Modellen haben eine hochwertige Text-zu-Bild-Generierung ermöglicht. Dennoch hinken Open-Source-Bildbearbeitungsmodelle ihren proprietären Gegenstücken hinterher, hauptsächlich aufgrund begrenzter hochwertiger Daten und unzureichender Benchmarks. Um diese Einschränkungen zu überwinden, stellen wir ImgEdit vor, einen groß angelegten, hochwertigen Bildbearbeitungsdatensatz, der 1,2 Millionen sorgfältig kuratierte Bearbeitungspaare umfasst. Diese enthalten sowohl neuartige und komplexe Einzelschritt-Bearbeitungen als auch anspruchsvolle Mehrschritt-Aufgaben. Um die Datenqualität sicherzustellen, verwenden wir eine mehrstufige Pipeline, die ein modernes Vision-Language-Modell, ein Detektionsmodell, ein Segmentierungsmodell sowie aufgaben spezifische Inpainting-Verfahren und strenge Nachbearbeitung integriert. ImgEdit übertrifft bestehende Datensätze sowohl in Bezug auf die Neuartigkeit der Aufgaben als auch auf die Datenqualität. Mit ImgEdit trainieren wir ImgEdit-E1, ein Bearbeitungsmodell, das ein Vision-Language-Modell zur Verarbeitung des Referenzbildes und des Bearbeitungsprompts verwendet. Dieses Modell übertrifft bestehende Open-Source-Modelle bei mehreren Aufgaben und unterstreicht den Wert von ImgEdit und dem Modell-Design. Für eine umfassende Bewertung führen wir ImgEdit-Bench ein, einen Benchmark, der die Bildbearbeitungsleistung in Bezug auf Anweisungsbefolgung, Bearbeitungsqualität und Detailerhaltung bewertet. Er umfasst einen Basistest, einen anspruchsvollen Einzelschritt-Test und einen speziellen Mehrschritt-Test. Wir bewerten sowohl Open-Source- als auch proprietäre Modelle sowie ImgEdit-E1 und bieten eine tiefgehende Analyse und umsetzbare Erkenntnisse über das aktuelle Verhalten von Bildbearbeitungsmodellen. Die Quelldaten sind öffentlich verfügbar unter https://github.com/PKU-YuanGroup/ImgEdit.
English
Recent advancements in generative models have enabled high-fidelity text-to-image generation. However, open-source image-editing models still lag behind their proprietary counterparts, primarily due to limited high-quality data and insufficient benchmarks. To overcome these limitations, we introduce ImgEdit, a large-scale, high-quality image-editing dataset comprising 1.2 million carefully curated edit pairs, which contain both novel and complex single-turn edits, as well as challenging multi-turn tasks. To ensure the data quality, we employ a multi-stage pipeline that integrates a cutting-edge vision-language model, a detection model, a segmentation model, alongside task-specific in-painting procedures and strict post-processing. ImgEdit surpasses existing datasets in both task novelty and data quality. Using ImgEdit, we train ImgEdit-E1, an editing model using Vision Language Model to process the reference image and editing prompt, which outperforms existing open-source models on multiple tasks, highlighting the value of ImgEdit and model design. For comprehensive evaluation, we introduce ImgEdit-Bench, a benchmark designed to evaluate image editing performance in terms of instruction adherence, editing quality, and detail preservation. It includes a basic testsuite, a challenging single-turn suite, and a dedicated multi-turn suite. We evaluate both open-source and proprietary models, as well as ImgEdit-E1, providing deep analysis and actionable insights into the current behavior of image-editing models. The source data are publicly available on https://github.com/PKU-YuanGroup/ImgEdit.

Summary

AI-Generated Summary

PDF173May 28, 2025