ImgEdit: Un Conjunto de Datos Unificado y Punto de Referencia para la Edición de Imágenes
ImgEdit: A Unified Image Editing Dataset and Benchmark
May 26, 2025
Autores: Yang Ye, Xianyi He, Zongjian Li, Bin Lin, Shenghai Yuan, Zhiyuan Yan, Bohan Hou, Li Yuan
cs.AI
Resumen
Los recientes avances en modelos generativos han permitido la generación de imágenes de alta fidelidad a partir de texto. Sin embargo, los modelos de edición de imágenes de código abierto aún están rezagados en comparación con sus contrapartes propietarias, principalmente debido a la limitada disponibilidad de datos de alta calidad y a la insuficiencia de puntos de referencia. Para superar estas limitaciones, presentamos ImgEdit, un conjunto de datos de edición de imágenes a gran escala y de alta calidad que comprende 1.2 millones de pares de ediciones cuidadosamente seleccionados, los cuales incluyen tanto ediciones novedosas y complejas de un solo paso, como tareas desafiantes de múltiples pasos. Para garantizar la calidad de los datos, empleamos un pipeline de múltiples etapas que integra un modelo de visión y lenguaje de vanguardia, un modelo de detección, un modelo de segmentación, junto con procedimientos específicos de inpainting y un estricto post-procesamiento. ImgEdit supera a los conjuntos de datos existentes tanto en novedad de tareas como en calidad de datos. Utilizando ImgEdit, entrenamos ImgEdit-E1, un modelo de edición que utiliza un Modelo de Lenguaje y Visión para procesar la imagen de referencia y la instrucción de edición, el cual supera a los modelos de código abierto existentes en múltiples tareas, destacando el valor de ImgEdit y el diseño del modelo. Para una evaluación integral, presentamos ImgEdit-Bench, un punto de referencia diseñado para evaluar el rendimiento de la edición de imágenes en términos de adherencia a las instrucciones, calidad de la edición y preservación de detalles. Incluye un conjunto básico de pruebas, un conjunto desafiante de un solo paso y un conjunto dedicado de múltiples pasos. Evaluamos tanto modelos de código abierto como propietarios, así como ImgEdit-E1, proporcionando un análisis profundo y conocimientos prácticos sobre el comportamiento actual de los modelos de edición de imágenes. Los datos fuente están disponibles públicamente en https://github.com/PKU-YuanGroup/ImgEdit.
English
Recent advancements in generative models have enabled high-fidelity
text-to-image generation. However, open-source image-editing models still lag
behind their proprietary counterparts, primarily due to limited high-quality
data and insufficient benchmarks. To overcome these limitations, we introduce
ImgEdit, a large-scale, high-quality image-editing dataset comprising 1.2
million carefully curated edit pairs, which contain both novel and complex
single-turn edits, as well as challenging multi-turn tasks. To ensure the data
quality, we employ a multi-stage pipeline that integrates a cutting-edge
vision-language model, a detection model, a segmentation model, alongside
task-specific in-painting procedures and strict post-processing. ImgEdit
surpasses existing datasets in both task novelty and data quality. Using
ImgEdit, we train ImgEdit-E1, an editing model using Vision Language Model to
process the reference image and editing prompt, which outperforms existing
open-source models on multiple tasks, highlighting the value of ImgEdit and
model design. For comprehensive evaluation, we introduce ImgEdit-Bench, a
benchmark designed to evaluate image editing performance in terms of
instruction adherence, editing quality, and detail preservation. It includes a
basic testsuite, a challenging single-turn suite, and a dedicated multi-turn
suite. We evaluate both open-source and proprietary models, as well as
ImgEdit-E1, providing deep analysis and actionable insights into the current
behavior of image-editing models. The source data are publicly available on
https://github.com/PKU-YuanGroup/ImgEdit.Summary
AI-Generated Summary