ImgEdit: Унифицированный набор данных и эталон для редактирования изображений
ImgEdit: A Unified Image Editing Dataset and Benchmark
May 26, 2025
Авторы: Yang Ye, Xianyi He, Zongjian Li, Bin Lin, Shenghai Yuan, Zhiyuan Yan, Bohan Hou, Li Yuan
cs.AI
Аннотация
Последние достижения в области генеративных моделей позволили добиться высококачественного преобразования текста в изображение. Однако открытые модели редактирования изображений по-прежнему отстают от своих проприетарных аналогов, главным образом из-за ограниченного объема высококачественных данных и недостаточного количества бенчмарков. Чтобы преодолеть эти ограничения, мы представляем ImgEdit — масштабный высококачественный набор данных для редактирования изображений, содержащий 1,2 миллиона тщательно отобранных пар редактирования, включающих как новые и сложные одношаговые правки, так и сложные многошаговые задачи. Для обеспечения качества данных мы используем многоэтапный процесс, который интегрирует передовую модель обработки изображений и текста, модель детекции, модель сегментации, а также специализированные процедуры восстановления изображений и строгую постобработку. ImgEdit превосходит существующие наборы данных как по новизне задач, так и по качеству данных. Используя ImgEdit, мы обучаем ImgEdit-E1 — модель редактирования, которая применяет Vision Language Model для обработки исходного изображения и текстового запроса. Эта модель превосходит существующие открытые модели в выполнении множества задач, что подчеркивает ценность ImgEdit и дизайна модели. Для всесторонней оценки мы представляем ImgEdit-Bench — бенчмарк, предназначенный для оценки производительности редактирования изображений с точки зрения соответствия инструкциям, качества редактирования и сохранения деталей. Он включает базовый набор тестов, сложный одношаговый набор и специализированный многошаговый набор. Мы оцениваем как открытые, так и проприетарные модели, а также ImgEdit-E1, предоставляя глубокий анализ и практические рекомендации по текущему поведению моделей редактирования изображений. Исходные данные доступны публично по адресу https://github.com/PKU-YuanGroup/ImgEdit.
English
Recent advancements in generative models have enabled high-fidelity
text-to-image generation. However, open-source image-editing models still lag
behind their proprietary counterparts, primarily due to limited high-quality
data and insufficient benchmarks. To overcome these limitations, we introduce
ImgEdit, a large-scale, high-quality image-editing dataset comprising 1.2
million carefully curated edit pairs, which contain both novel and complex
single-turn edits, as well as challenging multi-turn tasks. To ensure the data
quality, we employ a multi-stage pipeline that integrates a cutting-edge
vision-language model, a detection model, a segmentation model, alongside
task-specific in-painting procedures and strict post-processing. ImgEdit
surpasses existing datasets in both task novelty and data quality. Using
ImgEdit, we train ImgEdit-E1, an editing model using Vision Language Model to
process the reference image and editing prompt, which outperforms existing
open-source models on multiple tasks, highlighting the value of ImgEdit and
model design. For comprehensive evaluation, we introduce ImgEdit-Bench, a
benchmark designed to evaluate image editing performance in terms of
instruction adherence, editing quality, and detail preservation. It includes a
basic testsuite, a challenging single-turn suite, and a dedicated multi-turn
suite. We evaluate both open-source and proprietary models, as well as
ImgEdit-E1, providing deep analysis and actionable insights into the current
behavior of image-editing models. The source data are publicly available on
https://github.com/PKU-YuanGroup/ImgEdit.Summary
AI-Generated Summary