OpenGPT-4o-Image: Ein umfassender Datensatz für fortgeschrittene Bildgenerierung und -bearbeitung
OpenGPT-4o-Image: A Comprehensive Dataset for Advanced Image Generation and Editing
September 29, 2025
papers.authors: Zhihong Chen, Xuehai Bai, Yang Shi, Chaoyou Fu, Huanyu Zhang, Haotian Wang, Xiaoyan Sun, Zhang Zhang, Liang Wang, Yuanxing Zhang, Pengfei Wan, Yi-Fan Zhang
cs.AI
papers.abstract
Die Leistung von einheitlichen multimodalen Modellen für die Bildgenerierung und -bearbeitung ist grundlegend durch die Qualität und Vollständigkeit ihrer Trainingsdaten begrenzt. Während bestehende Datensätze grundlegende Aufgaben wie Stiltransfer und einfache Objektmanipulation abdecken, fehlt ihnen oft die systematische Struktur und die anspruchsvollen Szenarien, die für reale Anwendungen erforderlich sind. Um diesen Engpass zu überwinden, stellen wir OpenGPT-4o-Image vor, einen groß angelegten Datensatz, der mit einer neuartigen Methodik erstellt wurde, die hierarchische Aufgaben-Taxonomie mit automatisierter Datengenerierung kombiniert. Unsere Taxonomie umfasst nicht nur grundlegende Fähigkeiten wie Textdarstellung und Stilkontrolle, sondern führt auch hochpraktische, jedoch anspruchsvolle Kategorien wie wissenschaftliche Bilddarstellungen für chemische Illustrationen und komplexe Anweisungsbearbeitungen ein, die die gleichzeitige Ausführung mehrerer Operationen erfordern. Durch eine automatisierte Pipeline, die strukturierte Ressourcenpools und GPT-4o nutzt, generieren wir 80.000 hochwertige Anweisungs-Bild-Paare mit kontrollierter Vielfalt, die 11 Hauptdomänen und 51 Unteraufgaben abdecken. Umfangreiche Experimente zeigen, dass das Feinabstimmen führender Modelle auf unserem Datensatz signifikante Leistungssteigerungen über mehrere Benchmarks hinweg erzielt, mit Verbesserungen von bis zu 18 % bei Bearbeitungsaufgaben (UniWorld-V1 auf ImgEdit-Bench) und 13 % bei Generierungsaufgaben (Harmon auf GenEval). Unsere Arbeit zeigt, dass die systematische Datenkonstruktion der Schlüssel zur Weiterentwicklung multimodaler KI-Fähigkeiten ist.
English
The performance of unified multimodal models for image generation and editing
is fundamentally constrained by the quality and comprehensiveness of their
training data. While existing datasets have covered basic tasks like style
transfer and simple object manipulation, they often lack the systematic
structure and challenging scenarios required for real-world applications. To
address this bottleneck, we introduce OpenGPT-4o-Image, a large-scale dataset
constructed using a novel methodology that combines hierarchical task taxonomy
with automated data generation. Our taxonomy not only includes fundamental
capabilities such as text rendering and style control but also introduces
highly practical yet challenging categories like scientific imagery for
chemistry illustrations and complex instruction editing requiring simultaneous
execution of multiple operations. Through an automated pipeline leveraging
structured resource pools and GPT-4o, we generate 80k high-quality
instruction-image pairs with controlled diversity, covering 11 major domains
and 51 subtasks. Extensive experiments show that fine-tuning leading models on
our dataset achieves significant performance gains across multiple benchmarks,
with improvements of up to 18\% on editing tasks (UniWorld-V1 on ImgEdit-Bench)
and 13% on generation tasks (Harmon on GenEval). Our work demonstrates that
systematic data construction is key to advancing multimodal AI capabilities.