ImgEdit: Un Dataset Unificato per la Modifica delle Immagini e un Benchmark
ImgEdit: A Unified Image Editing Dataset and Benchmark
May 26, 2025
Autori: Yang Ye, Xianyi He, Zongjian Li, Bin Lin, Shenghai Yuan, Zhiyuan Yan, Bohan Hou, Li Yuan
cs.AI
Abstract
I recenti progressi nei modelli generativi hanno reso possibile la generazione di immagini ad alta fedeltà a partire da testo. Tuttavia, i modelli open-source per l'editing di immagini rimangono indietro rispetto alle loro controparti proprietarie, principalmente a causa della limitata disponibilità di dati di alta qualità e di benchmark insufficienti. Per superare queste limitazioni, introduciamo ImgEdit, un dataset su larga scala e di alta qualità per l'editing di immagini, composto da 1,2 milioni di coppie di modifiche accuratamente curate, che includono sia modifiche singole nuove e complesse, sia compiti multi-turn impegnativi. Per garantire la qualità dei dati, utilizziamo una pipeline multi-stadio che integra un modello all'avanguardia di visione e linguaggio, un modello di rilevamento, un modello di segmentazione, insieme a procedure specifiche di in-painting e un rigoroso post-processing. ImgEdit supera i dataset esistenti sia nella novità dei compiti che nella qualità dei dati. Utilizzando ImgEdit, addestriamo ImgEdit-E1, un modello di editing che utilizza un modello di visione e linguaggio per elaborare l'immagine di riferimento e la richiesta di modifica, che supera i modelli open-source esistenti in molteplici compiti, evidenziando il valore di ImgEdit e del design del modello. Per una valutazione completa, introduciamo ImgEdit-Bench, un benchmark progettato per valutare le prestazioni di editing delle immagini in termini di aderenza alle istruzioni, qualità della modifica e conservazione dei dettagli. Include una suite di test di base, una suite impegnativa per modifiche singole e una suite dedicata per compiti multi-turn. Valutiamo sia modelli open-source che proprietari, nonché ImgEdit-E1, fornendo un'analisi approfondita e intuizioni pratiche sul comportamento attuale dei modelli di editing di immagini. I dati sorgente sono pubblicamente disponibili su https://github.com/PKU-YuanGroup/ImgEdit.
English
Recent advancements in generative models have enabled high-fidelity
text-to-image generation. However, open-source image-editing models still lag
behind their proprietary counterparts, primarily due to limited high-quality
data and insufficient benchmarks. To overcome these limitations, we introduce
ImgEdit, a large-scale, high-quality image-editing dataset comprising 1.2
million carefully curated edit pairs, which contain both novel and complex
single-turn edits, as well as challenging multi-turn tasks. To ensure the data
quality, we employ a multi-stage pipeline that integrates a cutting-edge
vision-language model, a detection model, a segmentation model, alongside
task-specific in-painting procedures and strict post-processing. ImgEdit
surpasses existing datasets in both task novelty and data quality. Using
ImgEdit, we train ImgEdit-E1, an editing model using Vision Language Model to
process the reference image and editing prompt, which outperforms existing
open-source models on multiple tasks, highlighting the value of ImgEdit and
model design. For comprehensive evaluation, we introduce ImgEdit-Bench, a
benchmark designed to evaluate image editing performance in terms of
instruction adherence, editing quality, and detail preservation. It includes a
basic testsuite, a challenging single-turn suite, and a dedicated multi-turn
suite. We evaluate both open-source and proprietary models, as well as
ImgEdit-E1, providing deep analysis and actionable insights into the current
behavior of image-editing models. The source data are publicly available on
https://github.com/PKU-YuanGroup/ImgEdit.