OpenGPT-4o-Image: Un Conjunto de Datos Integral para la Generación y Edición Avanzada de Imágenes
OpenGPT-4o-Image: A Comprehensive Dataset for Advanced Image Generation and Editing
September 29, 2025
Autores: Zhihong Chen, Xuehai Bai, Yang Shi, Chaoyou Fu, Huanyu Zhang, Haotian Wang, Xiaoyan Sun, Zhang Zhang, Liang Wang, Yuanxing Zhang, Pengfei Wan, Yi-Fan Zhang
cs.AI
Resumen
El rendimiento de los modelos multimodales unificados para la generación y edición de imágenes está fundamentalmente limitado por la calidad y exhaustividad de sus datos de entrenamiento. Aunque los conjuntos de datos existentes han cubierto tareas básicas como la transferencia de estilos y la manipulación simple de objetos, a menudo carecen de la estructura sistemática y los escenarios desafiantes necesarios para aplicaciones del mundo real. Para abordar este cuello de botella, presentamos OpenGPT-4o-Image, un conjunto de datos a gran escala construido mediante una metodología novedosa que combina una taxonomía jerárquica de tareas con la generación automatizada de datos. Nuestra taxonomía no solo incluye capacidades fundamentales como la representación de texto y el control de estilos, sino que también introduce categorías altamente prácticas pero desafiantes, como imágenes científicas para ilustraciones de química y edición de instrucciones complejas que requieren la ejecución simultánea de múltiples operaciones. A través de una canalización automatizada que aprovecha recursos estructurados y GPT-4o, generamos 80k pares de instrucción-imagen de alta calidad con diversidad controlada, cubriendo 11 dominios principales y 51 subtareas. Experimentos extensos muestran que el ajuste fino de modelos líderes en nuestro conjunto de datos logra mejoras significativas en múltiples puntos de referencia, con avances de hasta el 18\% en tareas de edición (UniWorld-V1 en ImgEdit-Bench) y el 13% en tareas de generación (Harmon en GenEval). Nuestro trabajo demuestra que la construcción sistemática de datos es clave para avanzar en las capacidades de la IA multimodal.
English
The performance of unified multimodal models for image generation and editing
is fundamentally constrained by the quality and comprehensiveness of their
training data. While existing datasets have covered basic tasks like style
transfer and simple object manipulation, they often lack the systematic
structure and challenging scenarios required for real-world applications. To
address this bottleneck, we introduce OpenGPT-4o-Image, a large-scale dataset
constructed using a novel methodology that combines hierarchical task taxonomy
with automated data generation. Our taxonomy not only includes fundamental
capabilities such as text rendering and style control but also introduces
highly practical yet challenging categories like scientific imagery for
chemistry illustrations and complex instruction editing requiring simultaneous
execution of multiple operations. Through an automated pipeline leveraging
structured resource pools and GPT-4o, we generate 80k high-quality
instruction-image pairs with controlled diversity, covering 11 major domains
and 51 subtasks. Extensive experiments show that fine-tuning leading models on
our dataset achieves significant performance gains across multiple benchmarks,
with improvements of up to 18\% on editing tasks (UniWorld-V1 on ImgEdit-Bench)
and 13% on generation tasks (Harmon on GenEval). Our work demonstrates that
systematic data construction is key to advancing multimodal AI capabilities.