ChatPaper.aiChatPaper

GPT-IMAGE-EDIT-1.5M: Een Miljoenschaal, Door GPT-Gegenereerde Beeldendataset

GPT-IMAGE-EDIT-1.5M: A Million-Scale, GPT-Generated Image Dataset

July 28, 2025
Auteurs: Yuhan Wang, Siwei Yang, Bingchen Zhao, Letian Zhang, Qing Liu, Yuyin Zhou, Cihang Xie
cs.AI

Samenvatting

Recente ontwikkelingen in grote multimodale modellen zoals GPT-4o hebben een nieuwe standaard gezet voor hoogwaardige, instructiegestuurde beeldbewerking. Het propriëtaire karakter van deze modellen en hun trainingsdata vormt echter een aanzienlijke barrière voor open-source onderzoek. Om deze kloof te overbruggen, introduceren we GPT-IMAGE-EDIT-1.5M, een openbaar beschikbare, grootschalige beeldbewerkingscorpus met meer dan 1,5 miljoen hoogwaardige tripletten (instructie, bronafbeelding, bewerkte afbeelding). We construeren deze dataset systematisch door de veelzijdige mogelijkheden van GPT-4o te benutten om drie populaire beeldbewerkingsdatasets te verenigen en te verfijnen: OmniEdit, HQ-Edit en UltraEdit. Onze methodologie omvat specifiek 1) het opnieuw genereren van uitvoerafbeeldingen om de visuele kwaliteit en instructie-uitlijning te verbeteren, en 2) het selectief herschrijven van prompts om de semantische duidelijkheid te vergroten. Om de effectiviteit van onze dataset te valideren, fine-tunen we geavanceerde open-source modellen op GPT-IMAGE-EDIT-1.5M. De empirische resultaten zijn veelbelovend; bijvoorbeeld, de fine-tuned FluxKontext behaalt zeer competitieve prestaties over een uitgebreide reeks benchmarks, waaronder 7.24 op GEdit-EN, 3.80 op ImgEdit-Full en 8.78 op Complex-Edit, wat een sterkere instructievolging en hogere perceptuele kwaliteit laat zien terwijl de identiteit behouden blijft. Deze scores overtreffen duidelijk alle eerder gepubliceerde open-source methoden en verkleinen de kloof met toonaangevende propriëtaire modellen aanzienlijk. We hopen dat de volledige release van GPT-IMAGE-EDIT-1.5M verdere open onderzoeken in instructiegestuurde beeldbewerking kan stimuleren.
English
Recent advancements in large multimodal models like GPT-4o have set a new standard for high-fidelity, instruction-guided image editing. However, the proprietary nature of these models and their training data creates a significant barrier for open-source research. To bridge this gap, we introduce GPT-IMAGE-EDIT-1.5M, a publicly available, large-scale image-editing corpus containing more than 1.5 million high-quality triplets (instruction, source image, edited image). We systematically construct this dataset by leveraging the versatile capabilities of GPT-4o to unify and refine three popular image-editing datasets: OmniEdit, HQ-Edit, and UltraEdit. Specifically, our methodology involves 1) regenerating output images to enhance visual quality and instruction alignment, and 2) selectively rewriting prompts to improve semantic clarity. To validate the efficacy of our dataset, we fine-tune advanced open-source models on GPT-IMAGE-EDIT-1.5M. The empirical results are exciting, e.g., the fine-tuned FluxKontext achieves highly competitive performance across a comprehensive suite of benchmarks, including 7.24 on GEdit-EN, 3.80 on ImgEdit-Full, and 8.78 on Complex-Edit, showing stronger instruction following and higher perceptual quality while maintaining identity. These scores markedly exceed all previously published open-source methods and substantially narrow the gap to leading proprietary models. We hope the full release of GPT-IMAGE-EDIT-1.5M can help to catalyze further open research in instruction-guided image editing.
PDF202July 29, 2025