ChatPaper.aiChatPaper

Echo-4o: Использование возможностей синтетических изображений GPT-4o для улучшения генерации изображений

Echo-4o: Harnessing the Power of GPT-4o Synthetic Images for Improved Image Generation

August 13, 2025
Авторы: Junyan Ye, Dongzhi Jiang, Zihao Wang, Leqi Zhu, Zhenghao Hu, Zilong Huang, Jun He, Zhiyuan Yan, Jinghua Yu, Hongsheng Li, Conghui He, Weijia Li
cs.AI

Аннотация

Недавно GPT-4o привлек значительное внимание благодаря своей высокой производительности в генерации изображений, хотя модели с открытым исходным кодом все еще отстают. Несколько исследований изучили возможность дистилляции данных изображений из GPT-4o для улучшения моделей с открытым исходным кодом, достигнув заметного прогресса. Однако остается ключевой вопрос: учитывая, что реальные наборы данных изображений уже представляют собой естественный источник высококачественных данных, зачем использовать синтетические данные, сгенерированные GPT-4o? В этой работе мы выделяем два ключевых преимущества синтетических изображений. Во-первых, они могут дополнять редкие сценарии в реальных наборах данных, такие как сюрреалистичные фантазии или генерация изображений с множеством ссылок, которые часто встречаются в пользовательских запросах. Во-вторых, они обеспечивают чистый и контролируемый надзор. Реальные данные часто содержат сложный фоновый шум и несоответствия между текстовыми описаниями и содержимым изображений, тогда как синтетические изображения предлагают чистые фоны и долгосрочные сигналы надзора, способствуя более точному соответствию текста и изображения. На основе этих инсайтов мы представляем Echo-4o-Image, синтетический набор данных объемом 180K, сгенерированный GPT-4o, который использует силу синтетических данных изображений для устранения пробелов в реальном покрытии. Используя этот набор данных, мы донастраиваем базовую модель унифицированной мультимодальной генерации Bagel, чтобы получить Echo-4o. Кроме того, мы предлагаем два новых эталонных теста для более точной и сложной оценки возможностей генерации изображений: GenEval++, который увеличивает сложность инструкций для снижения насыщения оценок, и Imagine-Bench, который фокусируется на оценке как понимания, так и генерации креативного контента. Echo-4o демонстрирует высокую производительность на стандартных тестах. Более того, применение Echo-4o-Image к другим базовым моделям (например, OmniGen2, BLIP3-o) приводит к стабильному улучшению производительности по множеству метрик, подчеркивая сильную трансферабельность набора данных.
English
Recently, GPT-4o has garnered significant attention for its strong performance in image generation, yet open-source models still lag behind. Several studies have explored distilling image data from GPT-4o to enhance open-source models, achieving notable progress. However, a key question remains: given that real-world image datasets already constitute a natural source of high-quality data, why should we use GPT-4o-generated synthetic data? In this work, we identify two key advantages of synthetic images. First, they can complement rare scenarios in real-world datasets, such as surreal fantasy or multi-reference image generation, which frequently occur in user queries. Second, they provide clean and controllable supervision. Real-world data often contains complex background noise and inherent misalignment between text descriptions and image content, whereas synthetic images offer pure backgrounds and long-tailed supervision signals, facilitating more accurate text-to-image alignment. Building on these insights, we introduce Echo-4o-Image, a 180K-scale synthetic dataset generated by GPT-4o, harnessing the power of synthetic image data to address blind spots in real-world coverage. Using this dataset, we fine-tune the unified multimodal generation baseline Bagel to obtain Echo-4o. In addition, we propose two new evaluation benchmarks for a more accurate and challenging assessment of image generation capabilities: GenEval++, which increases instruction complexity to mitigate score saturation, and Imagine-Bench, which focuses on evaluating both the understanding and generation of imaginative content. Echo-4o demonstrates strong performance across standard benchmarks. Moreover, applying Echo-4o-Image to other foundation models (e.g., OmniGen2, BLIP3-o) yields consistent performance gains across multiple metrics, highlighting the datasets strong transferability.
PDF162August 14, 2025