ChatPaper.aiChatPaper

OpenGPT-4o-Image : Un ensemble de données complet pour la génération et l'édition avancées d'images

OpenGPT-4o-Image: A Comprehensive Dataset for Advanced Image Generation and Editing

September 29, 2025
papers.authors: Zhihong Chen, Xuehai Bai, Yang Shi, Chaoyou Fu, Huanyu Zhang, Haotian Wang, Xiaoyan Sun, Zhang Zhang, Liang Wang, Yuanxing Zhang, Pengfei Wan, Yi-Fan Zhang
cs.AI

papers.abstract

La performance des modèles multimodaux unifiés pour la génération et l'édition d'images est fondamentalement limitée par la qualité et l'exhaustivité de leurs données d'entraînement. Bien que les ensembles de données existants couvrent des tâches de base comme le transfert de style et la manipulation simple d'objets, ils manquent souvent de la structure systématique et des scénarios complexes nécessaires pour des applications réelles. Pour résoudre ce problème, nous présentons OpenGPT-4o-Image, un ensemble de données à grande échelle construit à l'aide d'une nouvelle méthodologie qui combine une taxonomie hiérarchique des tâches avec une génération automatisée de données. Notre taxonomie inclut non seulement des capacités fondamentales telles que le rendu de texte et le contrôle de style, mais introduit également des catégories hautement pratiques mais complexes, comme les illustrations scientifiques pour la chimie et l'édition d'instructions complexes nécessitant l'exécution simultanée de multiples opérations. Grâce à un pipeline automatisé exploitant des pools de ressources structurées et GPT-4o, nous générons 80 000 paires instruction-image de haute qualité avec une diversité contrôlée, couvrant 11 domaines principaux et 51 sous-tâches. Des expériences approfondies montrent que l'affinage des modèles de pointe sur notre ensemble de données permet des gains de performance significatifs sur plusieurs benchmarks, avec des améliorations allant jusqu'à 18 % sur les tâches d'édition (UniWorld-V1 sur ImgEdit-Bench) et 13 % sur les tâches de génération (Harmon sur GenEval). Notre travail démontre que la construction systématique de données est essentielle pour faire progresser les capacités de l'IA multimodale.
English
The performance of unified multimodal models for image generation and editing is fundamentally constrained by the quality and comprehensiveness of their training data. While existing datasets have covered basic tasks like style transfer and simple object manipulation, they often lack the systematic structure and challenging scenarios required for real-world applications. To address this bottleneck, we introduce OpenGPT-4o-Image, a large-scale dataset constructed using a novel methodology that combines hierarchical task taxonomy with automated data generation. Our taxonomy not only includes fundamental capabilities such as text rendering and style control but also introduces highly practical yet challenging categories like scientific imagery for chemistry illustrations and complex instruction editing requiring simultaneous execution of multiple operations. Through an automated pipeline leveraging structured resource pools and GPT-4o, we generate 80k high-quality instruction-image pairs with controlled diversity, covering 11 major domains and 51 subtasks. Extensive experiments show that fine-tuning leading models on our dataset achieves significant performance gains across multiple benchmarks, with improvements of up to 18\% on editing tasks (UniWorld-V1 on ImgEdit-Bench) and 13% on generation tasks (Harmon on GenEval). Our work demonstrates that systematic data construction is key to advancing multimodal AI capabilities.
PDF382September 30, 2025