ChatPaper.aiChatPaper

OpenGPT-4o-Image: 高度な画像生成と編集のための包括的データセット

OpenGPT-4o-Image: A Comprehensive Dataset for Advanced Image Generation and Editing

September 29, 2025
著者: Zhihong Chen, Xuehai Bai, Yang Shi, Chaoyou Fu, Huanyu Zhang, Haotian Wang, Xiaoyan Sun, Zhang Zhang, Liang Wang, Yuanxing Zhang, Pengfei Wan, Yi-Fan Zhang
cs.AI

要旨

画像生成と編集のための統一マルチモーダルモデルの性能は、そのトレーニングデータの品質と包括性に根本的に制約されています。既存のデータセットは、スタイル転送や単純なオブジェクト操作などの基本的なタスクをカバーしていますが、実世界のアプリケーションに必要な体系的な構造と挑戦的なシナリオを欠いていることが多いです。このボトルネックを解決するために、階層的タスク分類法と自動化されたデータ生成を組み合わせた新しい方法論を用いて構築された大規模データセットであるOpenGPT-4o-Imageを紹介します。私たちの分類法は、テキストレンダリングやスタイル制御などの基本的な能力だけでなく、化学イラストのための科学的イメージや、複数の操作を同時に実行する必要がある複雑な指示編集などの非常に実用的でありながら挑戦的なカテゴリーも含んでいます。構造化されたリソースプールとGPT-4oを活用した自動化パイプラインを通じて、11の主要ドメインと51のサブタスクをカバーする80,000の高品質な指示-画像ペアを制御された多様性で生成します。広範な実験により、私たちのデータセットで主要なモデルをファインチューニングすることで、複数のベンチマークで大幅な性能向上が達成され、編集タスク(UniWorld-V1 on ImgEdit-Bench)で最大18%、生成タスク(Harmon on GenEval)で13%の改善が見られました。私たちの研究は、体系的なデータ構築がマルチモーダルAIの能力を進歩させる鍵であることを示しています。
English
The performance of unified multimodal models for image generation and editing is fundamentally constrained by the quality and comprehensiveness of their training data. While existing datasets have covered basic tasks like style transfer and simple object manipulation, they often lack the systematic structure and challenging scenarios required for real-world applications. To address this bottleneck, we introduce OpenGPT-4o-Image, a large-scale dataset constructed using a novel methodology that combines hierarchical task taxonomy with automated data generation. Our taxonomy not only includes fundamental capabilities such as text rendering and style control but also introduces highly practical yet challenging categories like scientific imagery for chemistry illustrations and complex instruction editing requiring simultaneous execution of multiple operations. Through an automated pipeline leveraging structured resource pools and GPT-4o, we generate 80k high-quality instruction-image pairs with controlled diversity, covering 11 major domains and 51 subtasks. Extensive experiments show that fine-tuning leading models on our dataset achieves significant performance gains across multiple benchmarks, with improvements of up to 18\% on editing tasks (UniWorld-V1 on ImgEdit-Bench) and 13% on generation tasks (Harmon on GenEval). Our work demonstrates that systematic data construction is key to advancing multimodal AI capabilities.
PDF382September 30, 2025