GPT-IMAGE-EDIT-1.5M: Ein Millionen-großer, GPT-generierter Bilddatensatz

papers.abstract

Jüngste Fortschritte bei großen multimodalen Modellen wie GPT-4o haben einen neuen Standard für hochwertige, anweisungsgesteuerte Bildbearbeitung gesetzt. Die proprietäre Natur dieser Modelle und ihrer Trainingsdaten stellt jedoch eine erhebliche Barriere für die Open-Source-Forschung dar. Um diese Lücke zu schließen, stellen wir GPT-IMAGE-EDIT-1.5M vor, einen öffentlich zugänglichen, groß angelegten Bildbearbeitungskorpus, der mehr als 1,5 Millionen hochwertige Tripel (Anweisung, Quellbild, bearbeitetes Bild) enthält. Wir konstruieren diesen Datensatz systematisch, indem wir die vielseitigen Fähigkeiten von GPT-4o nutzen, um drei beliebte Bildbearbeitungsdatensätze zu vereinheitlichen und zu verfeinern: OmniEdit, HQ-Edit und UltraEdit. Konkret umfasst unsere Methodik 1) die Neugenerierung von Ausgabebildern, um die visuelle Qualität und die Anweisungsausrichtung zu verbessern, und 2) die selektive Neufassung von Prompts, um die semantische Klarheit zu erhöhen. Um die Wirksamkeit unseres Datensatzes zu validieren, feintunen wir fortschrittliche Open-Source-Modelle auf GPT-IMAGE-EDIT-1.5M. Die empirischen Ergebnisse sind vielversprechend: Das feinabgestimmte FluxKontext erzielt beispielsweise eine äußerst wettbewerbsfähige Leistung über eine umfassende Suite von Benchmarks hinweg, darunter 7,24 auf GEdit-EN, 3,80 auf ImgEdit-Full und 8,78 auf Complex-Edit, und zeigt eine stärkere Befolgung von Anweisungen sowie eine höhere wahrgenommene Qualität bei gleichzeitiger Wahrung der Identität. Diese Werte übertreffen deutlich alle bisher veröffentlichten Open-Source-Methoden und verringern die Lücke zu führenden proprietären Modellen erheblich. Wir hoffen, dass die vollständige Veröffentlichung von GPT-IMAGE-EDIT-1.5M die weitere offene Forschung im Bereich der anweisungsgesteuerten Bildbearbeitung vorantreiben kann.

English

Recent advancements in large multimodal models like GPT-4o have set a new standard for high-fidelity, instruction-guided image editing. However, the proprietary nature of these models and their training data creates a significant barrier for open-source research. To bridge this gap, we introduce GPT-IMAGE-EDIT-1.5M, a publicly available, large-scale image-editing corpus containing more than 1.5 million high-quality triplets (instruction, source image, edited image). We systematically construct this dataset by leveraging the versatile capabilities of GPT-4o to unify and refine three popular image-editing datasets: OmniEdit, HQ-Edit, and UltraEdit. Specifically, our methodology involves 1) regenerating output images to enhance visual quality and instruction alignment, and 2) selectively rewriting prompts to improve semantic clarity. To validate the efficacy of our dataset, we fine-tune advanced open-source models on GPT-IMAGE-EDIT-1.5M. The empirical results are exciting, e.g., the fine-tuned FluxKontext achieves highly competitive performance across a comprehensive suite of benchmarks, including 7.24 on GEdit-EN, 3.80 on ImgEdit-Full, and 8.78 on Complex-Edit, showing stronger instruction following and higher perceptual quality while maintaining identity. These scores markedly exceed all previously published open-source methods and substantially narrow the gap to leading proprietary models. We hope the full release of GPT-IMAGE-EDIT-1.5M can help to catalyze further open research in instruction-guided image editing.

GPT-IMAGE-EDIT-1.5M: Ein Millionen-großer, GPT-generierter Bilddatensatz

GPT-IMAGE-EDIT-1.5M: A Million-Scale, GPT-Generated Image Dataset

papers.abstract

Support