Echo-4o: GPT-4o合成画像の力を活用した高度な画像生成
Echo-4o: Harnessing the Power of GPT-4o Synthetic Images for Improved Image Generation
August 13, 2025
著者: Junyan Ye, Dongzhi Jiang, Zihao Wang, Leqi Zhu, Zhenghao Hu, Zilong Huang, Jun He, Zhiyuan Yan, Jinghua Yu, Hongsheng Li, Conghui He, Weijia Li
cs.AI
要旨
最近、GPT-4oは画像生成における強力な性能で注目を集めているが、オープンソースモデルはまだ遅れを取っている。GPT-4oから画像データを蒸留してオープンソースモデルを強化する研究がいくつか行われ、顕著な進展を遂げている。しかし、重要な疑問が残る:現実世界の画像データセットがすでに高品質なデータの自然な源であるならば、なぜGPT-4oが生成した合成データを使用する必要があるのか?本研究では、合成画像の2つの主要な利点を特定した。第一に、合成画像は現実世界のデータセットでは稀なシナリオ、例えばシュールなファンタジーや複数参照画像生成など、ユーザークエリで頻繁に発生するシナリオを補完できる。第二に、合成画像はクリーンで制御可能な教師信号を提供する。現実世界のデータはしばしば複雑な背景ノイズやテキスト記述と画像内容の間の不整合を含むが、合成画像は純粋な背景とロングテールの教師信号を提供し、より正確なテキストから画像への整合を容易にする。これらの洞察に基づき、我々はGPT-4oによって生成された180K規模の合成データセットであるEcho-4o-Imageを導入し、合成画像データの力を活用して現実世界のカバレッジの盲点に対処する。このデータセットを使用して、統一されたマルチモーダル生成ベースラインであるBagelを微調整し、Echo-4oを取得した。さらに、画像生成能力をより正確かつ挑戦的に評価するための2つの新しい評価ベンチマークを提案した:GenEval++は、スコア飽和を緩和するために指示の複雑さを増し、Imagine-Benchは、想像力豊かな内容の理解と生成の両方を評価することに焦点を当てている。Echo-4oは標準ベンチマークで強力な性能を示した。さらに、Echo-4o-Imageを他の基盤モデル(例えば、OmniGen2、BLIP3-o)に適用すると、複数のメトリクスで一貫した性能向上が得られ、データセットの強力な転移性が強調された。
English
Recently, GPT-4o has garnered significant attention for its strong
performance in image generation, yet open-source models still lag behind.
Several studies have explored distilling image data from GPT-4o to enhance
open-source models, achieving notable progress. However, a key question
remains: given that real-world image datasets already constitute a natural
source of high-quality data, why should we use GPT-4o-generated synthetic data?
In this work, we identify two key advantages of synthetic images. First, they
can complement rare scenarios in real-world datasets, such as surreal fantasy
or multi-reference image generation, which frequently occur in user queries.
Second, they provide clean and controllable supervision. Real-world data often
contains complex background noise and inherent misalignment between text
descriptions and image content, whereas synthetic images offer pure backgrounds
and long-tailed supervision signals, facilitating more accurate text-to-image
alignment. Building on these insights, we introduce Echo-4o-Image, a 180K-scale
synthetic dataset generated by GPT-4o, harnessing the power of synthetic image
data to address blind spots in real-world coverage. Using this dataset, we
fine-tune the unified multimodal generation baseline Bagel to obtain Echo-4o.
In addition, we propose two new evaluation benchmarks for a more accurate and
challenging assessment of image generation capabilities: GenEval++, which
increases instruction complexity to mitigate score saturation, and
Imagine-Bench, which focuses on evaluating both the understanding and
generation of imaginative content. Echo-4o demonstrates strong performance
across standard benchmarks. Moreover, applying Echo-4o-Image to other
foundation models (e.g., OmniGen2, BLIP3-o) yields consistent performance gains
across multiple metrics, highlighting the datasets strong transferability.