ChatPaper.aiChatPaper

ImgEdit: Un Conjunto de Datos Unificado y Punto de Referencia para la Edición de Imágenes

ImgEdit: A Unified Image Editing Dataset and Benchmark

May 26, 2025
Autores: Yang Ye, Xianyi He, Zongjian Li, Bin Lin, Shenghai Yuan, Zhiyuan Yan, Bohan Hou, Li Yuan
cs.AI

Resumen

Los recientes avances en modelos generativos han permitido la generación de imágenes de alta fidelidad a partir de texto. Sin embargo, los modelos de edición de imágenes de código abierto aún están rezagados en comparación con sus contrapartes propietarias, principalmente debido a la limitada disponibilidad de datos de alta calidad y a la insuficiencia de puntos de referencia. Para superar estas limitaciones, presentamos ImgEdit, un conjunto de datos de edición de imágenes a gran escala y de alta calidad que comprende 1.2 millones de pares de ediciones cuidadosamente seleccionados, los cuales incluyen tanto ediciones novedosas y complejas de un solo paso, como tareas desafiantes de múltiples pasos. Para garantizar la calidad de los datos, empleamos un pipeline de múltiples etapas que integra un modelo de visión y lenguaje de vanguardia, un modelo de detección, un modelo de segmentación, junto con procedimientos específicos de inpainting y un estricto post-procesamiento. ImgEdit supera a los conjuntos de datos existentes tanto en novedad de tareas como en calidad de datos. Utilizando ImgEdit, entrenamos ImgEdit-E1, un modelo de edición que utiliza un Modelo de Lenguaje y Visión para procesar la imagen de referencia y la instrucción de edición, el cual supera a los modelos de código abierto existentes en múltiples tareas, destacando el valor de ImgEdit y el diseño del modelo. Para una evaluación integral, presentamos ImgEdit-Bench, un punto de referencia diseñado para evaluar el rendimiento de la edición de imágenes en términos de adherencia a las instrucciones, calidad de la edición y preservación de detalles. Incluye un conjunto básico de pruebas, un conjunto desafiante de un solo paso y un conjunto dedicado de múltiples pasos. Evaluamos tanto modelos de código abierto como propietarios, así como ImgEdit-E1, proporcionando un análisis profundo y conocimientos prácticos sobre el comportamiento actual de los modelos de edición de imágenes. Los datos fuente están disponibles públicamente en https://github.com/PKU-YuanGroup/ImgEdit.
English
Recent advancements in generative models have enabled high-fidelity text-to-image generation. However, open-source image-editing models still lag behind their proprietary counterparts, primarily due to limited high-quality data and insufficient benchmarks. To overcome these limitations, we introduce ImgEdit, a large-scale, high-quality image-editing dataset comprising 1.2 million carefully curated edit pairs, which contain both novel and complex single-turn edits, as well as challenging multi-turn tasks. To ensure the data quality, we employ a multi-stage pipeline that integrates a cutting-edge vision-language model, a detection model, a segmentation model, alongside task-specific in-painting procedures and strict post-processing. ImgEdit surpasses existing datasets in both task novelty and data quality. Using ImgEdit, we train ImgEdit-E1, an editing model using Vision Language Model to process the reference image and editing prompt, which outperforms existing open-source models on multiple tasks, highlighting the value of ImgEdit and model design. For comprehensive evaluation, we introduce ImgEdit-Bench, a benchmark designed to evaluate image editing performance in terms of instruction adherence, editing quality, and detail preservation. It includes a basic testsuite, a challenging single-turn suite, and a dedicated multi-turn suite. We evaluate both open-source and proprietary models, as well as ImgEdit-E1, providing deep analysis and actionable insights into the current behavior of image-editing models. The source data are publicly available on https://github.com/PKU-YuanGroup/ImgEdit.

Summary

AI-Generated Summary

PDF173May 28, 2025