OpenGPT-4o-Image: Un Dataset Completo per la Generazione e Modifica Avanzata di Immagini
OpenGPT-4o-Image: A Comprehensive Dataset for Advanced Image Generation and Editing
September 29, 2025
Autori: Zhihong Chen, Xuehai Bai, Yang Shi, Chaoyou Fu, Huanyu Zhang, Haotian Wang, Xiaoyan Sun, Zhang Zhang, Liang Wang, Yuanxing Zhang, Pengfei Wan, Yi-Fan Zhang
cs.AI
Abstract
Le prestazioni dei modelli multimodali unificati per la generazione e la modifica di immagini sono fondamentalmente limitate dalla qualità e dalla completezza dei loro dati di addestramento. Sebbene i dataset esistenti abbiano coperto compiti di base come il trasferimento di stile e la manipolazione semplice di oggetti, spesso mancano della struttura sistematica e degli scenari complessi necessari per applicazioni nel mondo reale. Per affrontare questo collo di bottiglia, introduciamo OpenGPT-4o-Image, un dataset su larga scala costruito utilizzando una metodologia innovativa che combina una tassonomia gerarchica dei compiti con la generazione automatizzata dei dati. La nostra tassonomia non solo include capacità fondamentali come il rendering del testo e il controllo dello stile, ma introduce anche categorie altamente pratiche ma impegnative, come le immagini scientifiche per illustrazioni chimiche e la modifica di istruzioni complesse che richiedono l'esecuzione simultanea di più operazioni. Attraverso una pipeline automatizzata che sfrutta pool di risorse strutturate e GPT-4o, generiamo 80k coppie istruzione-immagine di alta qualità con una diversità controllata, coprendo 11 domini principali e 51 sottocompiti. Esperimenti estensivi dimostrano che il fine-tuning di modelli leader sul nostro dataset porta a significativi miglioramenti delle prestazioni su più benchmark, con incrementi fino al 18\% nei compiti di modifica (UniWorld-V1 su ImgEdit-Bench) e del 13% nei compiti di generazione (Harmon su GenEval). Il nostro lavoro dimostra che la costruzione sistematica dei dati è fondamentale per far progredire le capacità dell'IA multimodale.
English
The performance of unified multimodal models for image generation and editing
is fundamentally constrained by the quality and comprehensiveness of their
training data. While existing datasets have covered basic tasks like style
transfer and simple object manipulation, they often lack the systematic
structure and challenging scenarios required for real-world applications. To
address this bottleneck, we introduce OpenGPT-4o-Image, a large-scale dataset
constructed using a novel methodology that combines hierarchical task taxonomy
with automated data generation. Our taxonomy not only includes fundamental
capabilities such as text rendering and style control but also introduces
highly practical yet challenging categories like scientific imagery for
chemistry illustrations and complex instruction editing requiring simultaneous
execution of multiple operations. Through an automated pipeline leveraging
structured resource pools and GPT-4o, we generate 80k high-quality
instruction-image pairs with controlled diversity, covering 11 major domains
and 51 subtasks. Extensive experiments show that fine-tuning leading models on
our dataset achieves significant performance gains across multiple benchmarks,
with improvements of up to 18\% on editing tasks (UniWorld-V1 on ImgEdit-Bench)
and 13% on generation tasks (Harmon on GenEval). Our work demonstrates that
systematic data construction is key to advancing multimodal AI capabilities.