GPT-IMAGE-EDIT-1.5M: Um Conjunto de Dados de Imagens em Escala de Milhões Gerado por GPT
GPT-IMAGE-EDIT-1.5M: A Million-Scale, GPT-Generated Image Dataset
July 28, 2025
Autores: Yuhan Wang, Siwei Yang, Bingchen Zhao, Letian Zhang, Qing Liu, Yuyin Zhou, Cihang Xie
cs.AI
Resumo
Os recentes avanços em modelos multimodais de grande escala, como o GPT-4o, estabeleceram um novo padrão para edição de imagens guiada por instruções de alta fidelidade. No entanto, a natureza proprietária desses modelos e de seus dados de treinamento cria uma barreira significativa para a pesquisa de código aberto. Para preencher essa lacuna, apresentamos o GPT-IMAGE-EDIT-1.5M, um corpus de edição de imagens em grande escala e publicamente disponível, contendo mais de 1,5 milhão de triplas de alta qualidade (instrução, imagem original, imagem editada). Construímos sistematicamente esse conjunto de dados aproveitando as capacidades versáteis do GPT-4o para unificar e refinar três populares conjuntos de dados de edição de imagens: OmniEdit, HQ-Edit e UltraEdit. Especificamente, nossa metodologia envolve 1) regenerar imagens de saída para melhorar a qualidade visual e o alinhamento com as instruções, e 2) reescrever seletivamente os prompts para aprimorar a clareza semântica. Para validar a eficácia do nosso conjunto de dados, ajustamos modelos avançados de código aberto no GPT-IMAGE-EDIT-1.5M. Os resultados empíricos são animadores; por exemplo, o FluxKontext ajustado alcança um desempenho altamente competitivo em uma ampla gama de benchmarks, incluindo 7,24 no GEdit-EN, 3,80 no ImgEdit-Full e 8,78 no Complex-Edit, demonstrando uma melhor aderência às instruções e maior qualidade perceptual, mantendo a identidade. Essas pontuações superam marcadamente todos os métodos de código aberto previamente publicados e reduzem substancialmente a distância para os principais modelos proprietários. Esperamos que o lançamento completo do GPT-IMAGE-EDIT-1.5M possa ajudar a catalisar pesquisas abertas adicionais em edição de imagens guiada por instruções.
English
Recent advancements in large multimodal models like GPT-4o have set a new
standard for high-fidelity, instruction-guided image editing. However, the
proprietary nature of these models and their training data creates a
significant barrier for open-source research. To bridge this gap, we introduce
GPT-IMAGE-EDIT-1.5M, a publicly available, large-scale image-editing corpus
containing more than 1.5 million high-quality triplets (instruction, source
image, edited image). We systematically construct this dataset by leveraging
the versatile capabilities of GPT-4o to unify and refine three popular
image-editing datasets: OmniEdit, HQ-Edit, and UltraEdit. Specifically, our
methodology involves 1) regenerating output images to enhance visual quality
and instruction alignment, and 2) selectively rewriting prompts to improve
semantic clarity. To validate the efficacy of our dataset, we fine-tune
advanced open-source models on GPT-IMAGE-EDIT-1.5M. The empirical results are
exciting, e.g., the fine-tuned FluxKontext achieves highly competitive
performance across a comprehensive suite of benchmarks, including 7.24 on
GEdit-EN, 3.80 on ImgEdit-Full, and 8.78 on Complex-Edit, showing stronger
instruction following and higher perceptual quality while maintaining identity.
These scores markedly exceed all previously published open-source methods and
substantially narrow the gap to leading proprietary models. We hope the full
release of GPT-IMAGE-EDIT-1.5M can help to catalyze further open research in
instruction-guided image editing.