ChatPaper.aiChatPaper

ImgEdit: Um Conjunto de Dados Unificado e Benchmark para Edição de Imagens

ImgEdit: A Unified Image Editing Dataset and Benchmark

May 26, 2025
Autores: Yang Ye, Xianyi He, Zongjian Li, Bin Lin, Shenghai Yuan, Zhiyuan Yan, Bohan Hou, Li Yuan
cs.AI

Resumo

Os avanços recentes em modelos generativos permitiram a geração de imagens de alta fidelidade a partir de texto. No entanto, os modelos de edição de imagens de código aberto ainda ficam atrás de suas contrapartes proprietárias, principalmente devido à limitação de dados de alta qualidade e benchmarks insuficientes. Para superar essas limitações, introduzimos o ImgEdit, um conjunto de dados de edição de imagens em larga escala e de alta qualidade, composto por 1,2 milhão de pares de edição cuidadosamente curados, que contêm tanto edições únicas e complexas de uma única etapa, quanto tarefas desafiadoras de múltiplas etapas. Para garantir a qualidade dos dados, empregamos um pipeline de múltiplos estágios que integra um modelo de visão e linguagem de ponta, um modelo de detecção, um modelo de segmentação, juntamente com procedimentos específicos de in-painting e um rigoroso pós-processamento. O ImgEdit supera os conjuntos de dados existentes tanto em novidade de tarefas quanto em qualidade de dados. Utilizando o ImgEdit, treinamos o ImgEdit-E1, um modelo de edição que usa um Modelo de Linguagem de Visão para processar a imagem de referência e o prompt de edição, que supera os modelos de código aberto existentes em várias tarefas, destacando o valor do ImgEdit e do design do modelo. Para uma avaliação abrangente, introduzimos o ImgEdit-Bench, um benchmark projetado para avaliar o desempenho da edição de imagens em termos de aderência à instrução, qualidade de edição e preservação de detalhes. Ele inclui um conjunto básico de testes, um conjunto desafiador de uma única etapa e um conjunto dedicado de múltiplas etapas. Avaliamos tanto modelos de código aberto quanto proprietários, bem como o ImgEdit-E1, fornecendo uma análise profunda e insights acionáveis sobre o comportamento atual dos modelos de edição de imagens. Os dados de origem estão disponíveis publicamente em https://github.com/PKU-YuanGroup/ImgEdit.
English
Recent advancements in generative models have enabled high-fidelity text-to-image generation. However, open-source image-editing models still lag behind their proprietary counterparts, primarily due to limited high-quality data and insufficient benchmarks. To overcome these limitations, we introduce ImgEdit, a large-scale, high-quality image-editing dataset comprising 1.2 million carefully curated edit pairs, which contain both novel and complex single-turn edits, as well as challenging multi-turn tasks. To ensure the data quality, we employ a multi-stage pipeline that integrates a cutting-edge vision-language model, a detection model, a segmentation model, alongside task-specific in-painting procedures and strict post-processing. ImgEdit surpasses existing datasets in both task novelty and data quality. Using ImgEdit, we train ImgEdit-E1, an editing model using Vision Language Model to process the reference image and editing prompt, which outperforms existing open-source models on multiple tasks, highlighting the value of ImgEdit and model design. For comprehensive evaluation, we introduce ImgEdit-Bench, a benchmark designed to evaluate image editing performance in terms of instruction adherence, editing quality, and detail preservation. It includes a basic testsuite, a challenging single-turn suite, and a dedicated multi-turn suite. We evaluate both open-source and proprietary models, as well as ImgEdit-E1, providing deep analysis and actionable insights into the current behavior of image-editing models. The source data are publicly available on https://github.com/PKU-YuanGroup/ImgEdit.
PDF183December 4, 2025