ImgEdit : Un ensemble de données unifié pour l'édition d'images et un benchmark
ImgEdit: A Unified Image Editing Dataset and Benchmark
May 26, 2025
Auteurs: Yang Ye, Xianyi He, Zongjian Li, Bin Lin, Shenghai Yuan, Zhiyuan Yan, Bohan Hou, Li Yuan
cs.AI
Résumé
Les récentes avancées dans les modèles génératifs ont permis une génération d'images à partir de texte de haute fidélité. Cependant, les modèles open-source de retouche d'images restent à la traîne par rapport à leurs homologues propriétaires, principalement en raison de données de haute qualité limitées et de benchmarks insuffisants. Pour surmonter ces limitations, nous introduisons ImgEdit, un ensemble de données de retouche d'images à grande échelle et de haute qualité, comprenant 1,2 million de paires d'éditions soigneusement sélectionnées, qui incluent à la fois des modifications simples novatrices et complexes, ainsi que des tâches multi-étapes exigeantes. Pour garantir la qualité des données, nous utilisons un pipeline multi-étapes qui intègre un modèle vision-langage de pointe, un modèle de détection, un modèle de segmentation, ainsi que des procédures spécifiques de in-painting et un post-traitement strict. ImgEdit surpasse les ensembles de données existants à la fois en termes de nouveauté des tâches et de qualité des données. En utilisant ImgEdit, nous entraînons ImgEdit-E1, un modèle de retouche utilisant un modèle vision-langage pour traiter l'image de référence et l'invite de modification, qui surpasse les modèles open-source existants sur plusieurs tâches, mettant en valeur l'importance d'ImgEdit et de la conception du modèle. Pour une évaluation complète, nous introduisons ImgEdit-Bench, un benchmark conçu pour évaluer la performance de la retouche d'images en termes de respect des instructions, qualité de la retouche et préservation des détails. Il inclut une suite de tests de base, une suite de modifications simples exigeantes et une suite dédiée aux tâches multi-étapes. Nous évaluons à la fois les modèles open-source et propriétaires, ainsi qu'ImgEdit-E1, fournissant une analyse approfondie et des insights exploitables sur le comportement actuel des modèles de retouche d'images. Les données sources sont disponibles publiquement sur https://github.com/PKU-YuanGroup/ImgEdit.
English
Recent advancements in generative models have enabled high-fidelity
text-to-image generation. However, open-source image-editing models still lag
behind their proprietary counterparts, primarily due to limited high-quality
data and insufficient benchmarks. To overcome these limitations, we introduce
ImgEdit, a large-scale, high-quality image-editing dataset comprising 1.2
million carefully curated edit pairs, which contain both novel and complex
single-turn edits, as well as challenging multi-turn tasks. To ensure the data
quality, we employ a multi-stage pipeline that integrates a cutting-edge
vision-language model, a detection model, a segmentation model, alongside
task-specific in-painting procedures and strict post-processing. ImgEdit
surpasses existing datasets in both task novelty and data quality. Using
ImgEdit, we train ImgEdit-E1, an editing model using Vision Language Model to
process the reference image and editing prompt, which outperforms existing
open-source models on multiple tasks, highlighting the value of ImgEdit and
model design. For comprehensive evaluation, we introduce ImgEdit-Bench, a
benchmark designed to evaluate image editing performance in terms of
instruction adherence, editing quality, and detail preservation. It includes a
basic testsuite, a challenging single-turn suite, and a dedicated multi-turn
suite. We evaluate both open-source and proprietary models, as well as
ImgEdit-E1, providing deep analysis and actionable insights into the current
behavior of image-editing models. The source data are publicly available on
https://github.com/PKU-YuanGroup/ImgEdit.Summary
AI-Generated Summary