GPT-IMAGE-EDIT-1.5M: Ein Millionen-großer, GPT-generierter Bilddatensatz
GPT-IMAGE-EDIT-1.5M: A Million-Scale, GPT-Generated Image Dataset
July 28, 2025
papers.authors: Yuhan Wang, Siwei Yang, Bingchen Zhao, Letian Zhang, Qing Liu, Yuyin Zhou, Cihang Xie
cs.AI
papers.abstract
Jüngste Fortschritte bei großen multimodalen Modellen wie GPT-4o haben einen neuen Standard für hochwertige, anweisungsgesteuerte Bildbearbeitung gesetzt. Die proprietäre Natur dieser Modelle und ihrer Trainingsdaten stellt jedoch eine erhebliche Barriere für die Open-Source-Forschung dar. Um diese Lücke zu schließen, stellen wir GPT-IMAGE-EDIT-1.5M vor, einen öffentlich zugänglichen, groß angelegten Bildbearbeitungskorpus, der mehr als 1,5 Millionen hochwertige Tripel (Anweisung, Quellbild, bearbeitetes Bild) enthält. Wir konstruieren diesen Datensatz systematisch, indem wir die vielseitigen Fähigkeiten von GPT-4o nutzen, um drei beliebte Bildbearbeitungsdatensätze zu vereinheitlichen und zu verfeinern: OmniEdit, HQ-Edit und UltraEdit. Konkret umfasst unsere Methodik 1) die Neugenerierung von Ausgabebildern, um die visuelle Qualität und die Anweisungsausrichtung zu verbessern, und 2) die selektive Neufassung von Prompts, um die semantische Klarheit zu erhöhen. Um die Wirksamkeit unseres Datensatzes zu validieren, feintunen wir fortschrittliche Open-Source-Modelle auf GPT-IMAGE-EDIT-1.5M. Die empirischen Ergebnisse sind vielversprechend: Das feinabgestimmte FluxKontext erzielt beispielsweise eine äußerst wettbewerbsfähige Leistung über eine umfassende Suite von Benchmarks hinweg, darunter 7,24 auf GEdit-EN, 3,80 auf ImgEdit-Full und 8,78 auf Complex-Edit, und zeigt eine stärkere Befolgung von Anweisungen sowie eine höhere wahrgenommene Qualität bei gleichzeitiger Wahrung der Identität. Diese Werte übertreffen deutlich alle bisher veröffentlichten Open-Source-Methoden und verringern die Lücke zu führenden proprietären Modellen erheblich. Wir hoffen, dass die vollständige Veröffentlichung von GPT-IMAGE-EDIT-1.5M die weitere offene Forschung im Bereich der anweisungsgesteuerten Bildbearbeitung vorantreiben kann.
English
Recent advancements in large multimodal models like GPT-4o have set a new
standard for high-fidelity, instruction-guided image editing. However, the
proprietary nature of these models and their training data creates a
significant barrier for open-source research. To bridge this gap, we introduce
GPT-IMAGE-EDIT-1.5M, a publicly available, large-scale image-editing corpus
containing more than 1.5 million high-quality triplets (instruction, source
image, edited image). We systematically construct this dataset by leveraging
the versatile capabilities of GPT-4o to unify and refine three popular
image-editing datasets: OmniEdit, HQ-Edit, and UltraEdit. Specifically, our
methodology involves 1) regenerating output images to enhance visual quality
and instruction alignment, and 2) selectively rewriting prompts to improve
semantic clarity. To validate the efficacy of our dataset, we fine-tune
advanced open-source models on GPT-IMAGE-EDIT-1.5M. The empirical results are
exciting, e.g., the fine-tuned FluxKontext achieves highly competitive
performance across a comprehensive suite of benchmarks, including 7.24 on
GEdit-EN, 3.80 on ImgEdit-Full, and 8.78 on Complex-Edit, showing stronger
instruction following and higher perceptual quality while maintaining identity.
These scores markedly exceed all previously published open-source methods and
substantially narrow the gap to leading proprietary models. We hope the full
release of GPT-IMAGE-EDIT-1.5M can help to catalyze further open research in
instruction-guided image editing.