Echo-4o: Использование возможностей синтетических изображений GPT-4o для улучшения генерации изображений
Echo-4o: Harnessing the Power of GPT-4o Synthetic Images for Improved Image Generation
August 13, 2025
Авторы: Junyan Ye, Dongzhi Jiang, Zihao Wang, Leqi Zhu, Zhenghao Hu, Zilong Huang, Jun He, Zhiyuan Yan, Jinghua Yu, Hongsheng Li, Conghui He, Weijia Li
cs.AI
Аннотация
Недавно GPT-4o привлек значительное внимание благодаря своей высокой производительности в генерации изображений, хотя модели с открытым исходным кодом все еще отстают. Несколько исследований изучили возможность дистилляции данных изображений из GPT-4o для улучшения моделей с открытым исходным кодом, достигнув заметного прогресса. Однако остается ключевой вопрос: учитывая, что реальные наборы данных изображений уже представляют собой естественный источник высококачественных данных, зачем использовать синтетические данные, сгенерированные GPT-4o? В этой работе мы выделяем два ключевых преимущества синтетических изображений. Во-первых, они могут дополнять редкие сценарии в реальных наборах данных, такие как сюрреалистичные фантазии или генерация изображений с множеством ссылок, которые часто встречаются в пользовательских запросах. Во-вторых, они обеспечивают чистый и контролируемый надзор. Реальные данные часто содержат сложный фоновый шум и несоответствия между текстовыми описаниями и содержимым изображений, тогда как синтетические изображения предлагают чистые фоны и долгосрочные сигналы надзора, способствуя более точному соответствию текста и изображения. На основе этих инсайтов мы представляем Echo-4o-Image, синтетический набор данных объемом 180K, сгенерированный GPT-4o, который использует силу синтетических данных изображений для устранения пробелов в реальном покрытии. Используя этот набор данных, мы донастраиваем базовую модель унифицированной мультимодальной генерации Bagel, чтобы получить Echo-4o. Кроме того, мы предлагаем два новых эталонных теста для более точной и сложной оценки возможностей генерации изображений: GenEval++, который увеличивает сложность инструкций для снижения насыщения оценок, и Imagine-Bench, который фокусируется на оценке как понимания, так и генерации креативного контента. Echo-4o демонстрирует высокую производительность на стандартных тестах. Более того, применение Echo-4o-Image к другим базовым моделям (например, OmniGen2, BLIP3-o) приводит к стабильному улучшению производительности по множеству метрик, подчеркивая сильную трансферабельность набора данных.
English
Recently, GPT-4o has garnered significant attention for its strong
performance in image generation, yet open-source models still lag behind.
Several studies have explored distilling image data from GPT-4o to enhance
open-source models, achieving notable progress. However, a key question
remains: given that real-world image datasets already constitute a natural
source of high-quality data, why should we use GPT-4o-generated synthetic data?
In this work, we identify two key advantages of synthetic images. First, they
can complement rare scenarios in real-world datasets, such as surreal fantasy
or multi-reference image generation, which frequently occur in user queries.
Second, they provide clean and controllable supervision. Real-world data often
contains complex background noise and inherent misalignment between text
descriptions and image content, whereas synthetic images offer pure backgrounds
and long-tailed supervision signals, facilitating more accurate text-to-image
alignment. Building on these insights, we introduce Echo-4o-Image, a 180K-scale
synthetic dataset generated by GPT-4o, harnessing the power of synthetic image
data to address blind spots in real-world coverage. Using this dataset, we
fine-tune the unified multimodal generation baseline Bagel to obtain Echo-4o.
In addition, we propose two new evaluation benchmarks for a more accurate and
challenging assessment of image generation capabilities: GenEval++, which
increases instruction complexity to mitigate score saturation, and
Imagine-Bench, which focuses on evaluating both the understanding and
generation of imaginative content. Echo-4o demonstrates strong performance
across standard benchmarks. Moreover, applying Echo-4o-Image to other
foundation models (e.g., OmniGen2, BLIP3-o) yields consistent performance gains
across multiple metrics, highlighting the datasets strong transferability.