OpenGPT-4o-Image: Een Uitgebreide Dataset voor Geavanceerde Afbeeldingsgeneratie en -bewerking
OpenGPT-4o-Image: A Comprehensive Dataset for Advanced Image Generation and Editing
September 29, 2025
Auteurs: Zhihong Chen, Xuehai Bai, Yang Shi, Chaoyou Fu, Huanyu Zhang, Haotian Wang, Xiaoyan Sun, Zhang Zhang, Liang Wang, Yuanxing Zhang, Pengfei Wan, Yi-Fan Zhang
cs.AI
Samenvatting
De prestaties van geünificeerde multimodale modellen voor beeldgeneratie en -bewerking worden fundamenteel beperkt door de kwaliteit en volledigheid van hun trainingsdata. Hoewel bestaande datasets basistaken zoals stijloverdracht en eenvoudige objectmanipulatie hebben gedekt, ontbreekt het hen vaak aan de systematische structuur en uitdagende scenario's die nodig zijn voor real-world toepassingen. Om dit knelpunt aan te pakken, introduceren we OpenGPT-4o-Image, een grootschalige dataset die is opgebouwd met een nieuwe methodologie die een hiërarchische taaktaxonomie combineert met geautomatiseerde datageneratie. Onze taxonomie omvat niet alleen fundamentele vaardigheden zoals tekstweergave en stijlcontrole, maar introduceert ook zeer praktische maar uitdagende categorieën zoals wetenschappelijke beeldvorming voor chemische illustraties en complexe instructiebewerking die de gelijktijdige uitvoering van meerdere bewerkingen vereisen. Via een geautomatiseerde pijplijn die gebruikmaakt van gestructureerde bronnenpools en GPT-4o, genereren we 80k hoogwaardige instructie-beeldparen met gecontroleerde diversiteit, die 11 grote domeinen en 51 subtaken bestrijken. Uitgebreide experimenten tonen aan dat het finetunen van toonaangevende modellen op onze dataset aanzienlijke prestatieverbeteringen oplevert over meerdere benchmarks, met verbeteringen tot 18\% op bewerkingstaken (UniWorld-V1 op ImgEdit-Bench) en 13% op generatietaken (Harmon op GenEval). Ons werk toont aan dat systematische dataconstructie essentieel is voor het bevorderen van multimodale AI-capaciteiten.
English
The performance of unified multimodal models for image generation and editing
is fundamentally constrained by the quality and comprehensiveness of their
training data. While existing datasets have covered basic tasks like style
transfer and simple object manipulation, they often lack the systematic
structure and challenging scenarios required for real-world applications. To
address this bottleneck, we introduce OpenGPT-4o-Image, a large-scale dataset
constructed using a novel methodology that combines hierarchical task taxonomy
with automated data generation. Our taxonomy not only includes fundamental
capabilities such as text rendering and style control but also introduces
highly practical yet challenging categories like scientific imagery for
chemistry illustrations and complex instruction editing requiring simultaneous
execution of multiple operations. Through an automated pipeline leveraging
structured resource pools and GPT-4o, we generate 80k high-quality
instruction-image pairs with controlled diversity, covering 11 major domains
and 51 subtasks. Extensive experiments show that fine-tuning leading models on
our dataset achieves significant performance gains across multiple benchmarks,
with improvements of up to 18\% on editing tasks (UniWorld-V1 on ImgEdit-Bench)
and 13% on generation tasks (Harmon on GenEval). Our work demonstrates that
systematic data construction is key to advancing multimodal AI capabilities.