ChatPaper.aiChatPaper

OpenGPT-4o-Image: Комплексный набор данных для продвинутой генерации и редактирования изображений

OpenGPT-4o-Image: A Comprehensive Dataset for Advanced Image Generation and Editing

September 29, 2025
Авторы: Zhihong Chen, Xuehai Bai, Yang Shi, Chaoyou Fu, Huanyu Zhang, Haotian Wang, Xiaoyan Sun, Zhang Zhang, Liang Wang, Yuanxing Zhang, Pengfei Wan, Yi-Fan Zhang
cs.AI

Аннотация

Производительность унифицированных мультимодальных моделей для генерации и редактирования изображений фундаментально ограничена качеством и полнотой их обучающих данных. Хотя существующие наборы данных охватывают базовые задачи, такие как перенос стиля и простое манипулирование объектами, они часто лишены систематической структуры и сложных сценариев, необходимых для реальных приложений. Чтобы устранить это узкое место, мы представляем OpenGPT-4o-Image — крупномасштабный набор данных, созданный с использованием новой методологии, которая сочетает иерархическую таксономию задач с автоматизированной генерацией данных. Наша таксономия включает не только базовые возможности, такие как рендеринг текста и управление стилем, но и вводит высоко практичные, но сложные категории, такие как научная визуализация для химических иллюстраций и редактирование по сложным инструкциям, требующее одновременного выполнения множества операций. С помощью автоматизированного конвейера, использующего структурированные пулы ресурсов и GPT-4o, мы генерируем 80 тысяч высококачественных пар "инструкция-изображение" с контролируемым разнообразием, охватывающих 11 основных областей и 51 подзадачу. Многочисленные эксперименты показывают, что тонкая настройка ведущих моделей на нашем наборе данных приводит к значительному улучшению производительности на множестве бенчмарков, с повышением до 18% на задачах редактирования (UniWorld-V1 на ImgEdit-Bench) и 13% на задачах генерации (Harmon на GenEval). Наша работа демонстрирует, что систематическое построение данных является ключом к развитию мультимодальных возможностей ИИ.
English
The performance of unified multimodal models for image generation and editing is fundamentally constrained by the quality and comprehensiveness of their training data. While existing datasets have covered basic tasks like style transfer and simple object manipulation, they often lack the systematic structure and challenging scenarios required for real-world applications. To address this bottleneck, we introduce OpenGPT-4o-Image, a large-scale dataset constructed using a novel methodology that combines hierarchical task taxonomy with automated data generation. Our taxonomy not only includes fundamental capabilities such as text rendering and style control but also introduces highly practical yet challenging categories like scientific imagery for chemistry illustrations and complex instruction editing requiring simultaneous execution of multiple operations. Through an automated pipeline leveraging structured resource pools and GPT-4o, we generate 80k high-quality instruction-image pairs with controlled diversity, covering 11 major domains and 51 subtasks. Extensive experiments show that fine-tuning leading models on our dataset achieves significant performance gains across multiple benchmarks, with improvements of up to 18\% on editing tasks (UniWorld-V1 on ImgEdit-Bench) and 13% on generation tasks (Harmon on GenEval). Our work demonstrates that systematic data construction is key to advancing multimodal AI capabilities.
PDF382September 30, 2025