ImgEdit: Un Conjunto de Datos Unificado y Punto de Referencia para la Edición de Imágenes

Resumen

Los recientes avances en modelos generativos han permitido la generación de imágenes de alta fidelidad a partir de texto. Sin embargo, los modelos de edición de imágenes de código abierto aún están rezagados en comparación con sus contrapartes propietarias, principalmente debido a la limitada disponibilidad de datos de alta calidad y a la insuficiencia de puntos de referencia. Para superar estas limitaciones, presentamos ImgEdit, un conjunto de datos de edición de imágenes a gran escala y de alta calidad que comprende 1.2 millones de pares de ediciones cuidadosamente seleccionados, los cuales incluyen tanto ediciones novedosas y complejas de un solo paso, como tareas desafiantes de múltiples pasos. Para garantizar la calidad de los datos, empleamos un pipeline de múltiples etapas que integra un modelo de visión y lenguaje de vanguardia, un modelo de detección, un modelo de segmentación, junto con procedimientos específicos de inpainting y un estricto post-procesamiento. ImgEdit supera a los conjuntos de datos existentes tanto en novedad de tareas como en calidad de datos. Utilizando ImgEdit, entrenamos ImgEdit-E1, un modelo de edición que utiliza un Modelo de Lenguaje y Visión para procesar la imagen de referencia y la instrucción de edición, el cual supera a los modelos de código abierto existentes en múltiples tareas, destacando el valor de ImgEdit y el diseño del modelo. Para una evaluación integral, presentamos ImgEdit-Bench, un punto de referencia diseñado para evaluar el rendimiento de la edición de imágenes en términos de adherencia a las instrucciones, calidad de la edición y preservación de detalles. Incluye un conjunto básico de pruebas, un conjunto desafiante de un solo paso y un conjunto dedicado de múltiples pasos. Evaluamos tanto modelos de código abierto como propietarios, así como ImgEdit-E1, proporcionando un análisis profundo y conocimientos prácticos sobre el comportamiento actual de los modelos de edición de imágenes. Los datos fuente están disponibles públicamente en https://github.com/PKU-YuanGroup/ImgEdit.

English

Recent advancements in generative models have enabled high-fidelity text-to-image generation. However, open-source image-editing models still lag behind their proprietary counterparts, primarily due to limited high-quality data and insufficient benchmarks. To overcome these limitations, we introduce ImgEdit, a large-scale, high-quality image-editing dataset comprising 1.2 million carefully curated edit pairs, which contain both novel and complex single-turn edits, as well as challenging multi-turn tasks. To ensure the data quality, we employ a multi-stage pipeline that integrates a cutting-edge vision-language model, a detection model, a segmentation model, alongside task-specific in-painting procedures and strict post-processing. ImgEdit surpasses existing datasets in both task novelty and data quality. Using ImgEdit, we train ImgEdit-E1, an editing model using Vision Language Model to process the reference image and editing prompt, which outperforms existing open-source models on multiple tasks, highlighting the value of ImgEdit and model design. For comprehensive evaluation, we introduce ImgEdit-Bench, a benchmark designed to evaluate image editing performance in terms of instruction adherence, editing quality, and detail preservation. It includes a basic testsuite, a challenging single-turn suite, and a dedicated multi-turn suite. We evaluate both open-source and proprietary models, as well as ImgEdit-E1, providing deep analysis and actionable insights into the current behavior of image-editing models. The source data are publicly available on https://github.com/PKU-YuanGroup/ImgEdit.

ImgEdit: Un Conjunto de Datos Unificado y Punto de Referencia para la Edición de Imágenes

ImgEdit: A Unified Image Editing Dataset and Benchmark

Resumen

Support