OpenGPT-4o-Image: Um Conjunto de Dados Abrangente para Geração e Edição Avançada de Imagens
OpenGPT-4o-Image: A Comprehensive Dataset for Advanced Image Generation and Editing
September 29, 2025
Autores: Zhihong Chen, Xuehai Bai, Yang Shi, Chaoyou Fu, Huanyu Zhang, Haotian Wang, Xiaoyan Sun, Zhang Zhang, Liang Wang, Yuanxing Zhang, Pengfei Wan, Yi-Fan Zhang
cs.AI
Resumo
O desempenho de modelos multimodais unificados para geração e edição de imagens
é fundamentalmente limitado pela qualidade e abrangência de seus
dados de treinamento. Embora os conjuntos de dados existentes tenham coberto tarefas básicas, como transferência de estilo e manipulação simples de objetos, eles frequentemente carecem da estrutura sistemática e dos cenários desafiadores necessários para aplicações do mundo real. Para
resolver esse gargalo, apresentamos o OpenGPT-4o-Image, um conjunto de dados em larga escala
construído usando uma metodologia inovadora que combina taxonomia hierárquica de tarefas
com geração automatizada de dados. Nossa taxonomia não apenas inclui capacidades fundamentais,
como renderização de texto e controle de estilo, mas também introduz
categorias altamente práticas, porém desafiadoras, como imagens científicas para
ilustrações de química e edição de instruções complexas que exigem a execução simultânea
de múltiplas operações. Por meio de um pipeline automatizado que aproveita
pools de recursos estruturados e o GPT-4o, geramos 80 mil pares de instrução-imagem
de alta qualidade com diversidade controlada, abrangendo 11 domínios principais
e 51 subtarefas. Experimentos extensivos mostram que o ajuste fino de modelos líderes
em nosso conjunto de dados alcança ganhos significativos de desempenho em vários benchmarks,
com melhorias de até 18% em tarefas de edição (UniWorld-V1 no ImgEdit-Bench)
e 13% em tarefas de geração (Harmon no GenEval). Nosso trabalho demonstra que
a construção sistemática de dados é fundamental para avançar as capacidades da IA multimodal.
English
The performance of unified multimodal models for image generation and editing
is fundamentally constrained by the quality and comprehensiveness of their
training data. While existing datasets have covered basic tasks like style
transfer and simple object manipulation, they often lack the systematic
structure and challenging scenarios required for real-world applications. To
address this bottleneck, we introduce OpenGPT-4o-Image, a large-scale dataset
constructed using a novel methodology that combines hierarchical task taxonomy
with automated data generation. Our taxonomy not only includes fundamental
capabilities such as text rendering and style control but also introduces
highly practical yet challenging categories like scientific imagery for
chemistry illustrations and complex instruction editing requiring simultaneous
execution of multiple operations. Through an automated pipeline leveraging
structured resource pools and GPT-4o, we generate 80k high-quality
instruction-image pairs with controlled diversity, covering 11 major domains
and 51 subtasks. Extensive experiments show that fine-tuning leading models on
our dataset achieves significant performance gains across multiple benchmarks,
with improvements of up to 18\% on editing tasks (UniWorld-V1 on ImgEdit-Bench)
and 13% on generation tasks (Harmon on GenEval). Our work demonstrates that
systematic data construction is key to advancing multimodal AI capabilities.