ImgEdit: Een Uniforme Dataset en Benchmark voor Beeldbewerking
ImgEdit: A Unified Image Editing Dataset and Benchmark
May 26, 2025
Auteurs: Yang Ye, Xianyi He, Zongjian Li, Bin Lin, Shenghai Yuan, Zhiyuan Yan, Bohan Hou, Li Yuan
cs.AI
Samenvatting
Recente vooruitgang in generatieve modellen heeft hoogwaardige tekst-naar-beeldgeneratie mogelijk gemaakt. Open-source beeldbewerkingsmodellen blijven echter achter bij hun propriëtaire tegenhangers, voornamelijk vanwege beperkte hoogwaardige data en onvoldoende benchmarks. Om deze beperkingen te overwinnen, introduceren we ImgEdit, een grootschalige, hoogwaardige beeldbewerkingsdataset bestaande uit 1,2 miljoen zorgvuldig samengestelde bewerkingsparen, die zowel nieuwe en complexe eenmalige bewerkingen als uitdagende meerfasige taken bevatten. Om de datakwaliteit te waarborgen, gebruiken we een meerfasige pijplijn die een state-of-the-art vision-language model, een detectiemodel, een segmentatiemodel, samen met taakspecifieke inpainting-procedures en strikte nabewerking integreert. ImgEdit overtreft bestaande datasets in zowel taakvernieuwing als datakwaliteit. Met behulp van ImgEdit trainen we ImgEdit-E1, een bewerkingsmodel dat een Vision Language Model gebruikt om het referentiebeeld en de bewerkingsprompt te verwerken, dat bestaande open-source modellen op meerdere taken overtreft, wat de waarde van ImgEdit en het modelontwerp benadrukt. Voor een uitgebreide evaluatie introduceren we ImgEdit-Bench, een benchmark ontworpen om beeldbewerkingsprestaties te evalueren op het gebied van instructievolging, bewerkingskwaliteit en detailbehoud. Het omvat een basistestsuite, een uitdagende eenmalige suite en een toegewijde meerfasige suite. We evalueren zowel open-source als propriëtaire modellen, evenals ImgEdit-E1, en bieden diepgaande analyse en praktische inzichten in het huidige gedrag van beeldbewerkingsmodellen. De brondata zijn openbaar beschikbaar op https://github.com/PKU-YuanGroup/ImgEdit.
English
Recent advancements in generative models have enabled high-fidelity
text-to-image generation. However, open-source image-editing models still lag
behind their proprietary counterparts, primarily due to limited high-quality
data and insufficient benchmarks. To overcome these limitations, we introduce
ImgEdit, a large-scale, high-quality image-editing dataset comprising 1.2
million carefully curated edit pairs, which contain both novel and complex
single-turn edits, as well as challenging multi-turn tasks. To ensure the data
quality, we employ a multi-stage pipeline that integrates a cutting-edge
vision-language model, a detection model, a segmentation model, alongside
task-specific in-painting procedures and strict post-processing. ImgEdit
surpasses existing datasets in both task novelty and data quality. Using
ImgEdit, we train ImgEdit-E1, an editing model using Vision Language Model to
process the reference image and editing prompt, which outperforms existing
open-source models on multiple tasks, highlighting the value of ImgEdit and
model design. For comprehensive evaluation, we introduce ImgEdit-Bench, a
benchmark designed to evaluate image editing performance in terms of
instruction adherence, editing quality, and detail preservation. It includes a
basic testsuite, a challenging single-turn suite, and a dedicated multi-turn
suite. We evaluate both open-source and proprietary models, as well as
ImgEdit-E1, providing deep analysis and actionable insights into the current
behavior of image-editing models. The source data are publicly available on
https://github.com/PKU-YuanGroup/ImgEdit.