ImgEdit : Un ensemble de données unifié pour l'édition d'images et un benchmark

papers.abstract

Les récentes avancées dans les modèles génératifs ont permis une génération d'images à partir de texte de haute fidélité. Cependant, les modèles open-source de retouche d'images restent à la traîne par rapport à leurs homologues propriétaires, principalement en raison de données de haute qualité limitées et de benchmarks insuffisants. Pour surmonter ces limitations, nous introduisons ImgEdit, un ensemble de données de retouche d'images à grande échelle et de haute qualité, comprenant 1,2 million de paires d'éditions soigneusement sélectionnées, qui incluent à la fois des modifications simples novatrices et complexes, ainsi que des tâches multi-étapes exigeantes. Pour garantir la qualité des données, nous utilisons un pipeline multi-étapes qui intègre un modèle vision-langage de pointe, un modèle de détection, un modèle de segmentation, ainsi que des procédures spécifiques de in-painting et un post-traitement strict. ImgEdit surpasse les ensembles de données existants à la fois en termes de nouveauté des tâches et de qualité des données. En utilisant ImgEdit, nous entraînons ImgEdit-E1, un modèle de retouche utilisant un modèle vision-langage pour traiter l'image de référence et l'invite de modification, qui surpasse les modèles open-source existants sur plusieurs tâches, mettant en valeur l'importance d'ImgEdit et de la conception du modèle. Pour une évaluation complète, nous introduisons ImgEdit-Bench, un benchmark conçu pour évaluer la performance de la retouche d'images en termes de respect des instructions, qualité de la retouche et préservation des détails. Il inclut une suite de tests de base, une suite de modifications simples exigeantes et une suite dédiée aux tâches multi-étapes. Nous évaluons à la fois les modèles open-source et propriétaires, ainsi qu'ImgEdit-E1, fournissant une analyse approfondie et des insights exploitables sur le comportement actuel des modèles de retouche d'images. Les données sources sont disponibles publiquement sur https://github.com/PKU-YuanGroup/ImgEdit.

English

Recent advancements in generative models have enabled high-fidelity text-to-image generation. However, open-source image-editing models still lag behind their proprietary counterparts, primarily due to limited high-quality data and insufficient benchmarks. To overcome these limitations, we introduce ImgEdit, a large-scale, high-quality image-editing dataset comprising 1.2 million carefully curated edit pairs, which contain both novel and complex single-turn edits, as well as challenging multi-turn tasks. To ensure the data quality, we employ a multi-stage pipeline that integrates a cutting-edge vision-language model, a detection model, a segmentation model, alongside task-specific in-painting procedures and strict post-processing. ImgEdit surpasses existing datasets in both task novelty and data quality. Using ImgEdit, we train ImgEdit-E1, an editing model using Vision Language Model to process the reference image and editing prompt, which outperforms existing open-source models on multiple tasks, highlighting the value of ImgEdit and model design. For comprehensive evaluation, we introduce ImgEdit-Bench, a benchmark designed to evaluate image editing performance in terms of instruction adherence, editing quality, and detail preservation. It includes a basic testsuite, a challenging single-turn suite, and a dedicated multi-turn suite. We evaluate both open-source and proprietary models, as well as ImgEdit-E1, providing deep analysis and actionable insights into the current behavior of image-editing models. The source data are publicly available on https://github.com/PKU-YuanGroup/ImgEdit.

ImgEdit : Un ensemble de données unifié pour l'édition d'images et un benchmark

ImgEdit: A Unified Image Editing Dataset and Benchmark

papers.abstract

Support