Echo-4o : Exploiter la puissance des images synthétiques GPT-4o pour une génération d'images améliorée
Echo-4o: Harnessing the Power of GPT-4o Synthetic Images for Improved Image Generation
August 13, 2025
papers.authors: Junyan Ye, Dongzhi Jiang, Zihao Wang, Leqi Zhu, Zhenghao Hu, Zilong Huang, Jun He, Zhiyuan Yan, Jinghua Yu, Hongsheng Li, Conghui He, Weijia Li
cs.AI
papers.abstract
Récemment, GPT-4o a suscité une attention considérable pour ses performances impressionnantes en génération d'images, bien que les modèles open-source restent à la traîne. Plusieurs études ont exploré la distillation de données d'images à partir de GPT-4o pour améliorer les modèles open-source, obtenant des progrès notables. Cependant, une question fondamentale persiste : étant donné que les ensembles de données d'images du monde réel constituent déjà une source naturelle de données de haute qualité, pourquoi devrions-nous utiliser des données synthétiques générées par GPT-4o ? Dans ce travail, nous identifions deux avantages clés des images synthétiques. Premièrement, elles peuvent compléter des scénarios rares dans les ensembles de données du monde réel, tels que des fantaisies surréalistes ou la génération d'images à références multiples, qui apparaissent fréquemment dans les requêtes des utilisateurs. Deuxièmement, elles fournissent une supervision propre et contrôlable. Les données du monde réel contiennent souvent un bruit de fond complexe et un décalage inhérent entre les descriptions textuelles et le contenu des images, tandis que les images synthétiques offrent des arrière-plans purs et des signaux de supervision à longue traîne, facilitant un alignement plus précis entre le texte et l'image. Sur la base de ces observations, nous introduisons Echo-4o-Image, un ensemble de données synthétiques de 180K généré par GPT-4o, exploitant la puissance des données d'images synthétiques pour combler les lacunes de couverture du monde réel. En utilisant cet ensemble de données, nous affinons le modèle de génération multimodale unifié Bagel pour obtenir Echo-4o. De plus, nous proposons deux nouveaux benchmarks d'évaluation pour une évaluation plus précise et exigeante des capacités de génération d'images : GenEval++, qui augmente la complexité des instructions pour atténuer la saturation des scores, et Imagine-Bench, qui se concentre sur l'évaluation à la fois de la compréhension et de la génération de contenu imaginatif. Echo-4o démontre de solides performances sur les benchmarks standards. Par ailleurs, l'application d'Echo-4o-Image à d'autres modèles de base (par exemple, OmniGen2, BLIP3-o) entraîne des gains de performance cohérents sur plusieurs métriques, mettant en évidence la forte transférabilité de l'ensemble de données.
English
Recently, GPT-4o has garnered significant attention for its strong
performance in image generation, yet open-source models still lag behind.
Several studies have explored distilling image data from GPT-4o to enhance
open-source models, achieving notable progress. However, a key question
remains: given that real-world image datasets already constitute a natural
source of high-quality data, why should we use GPT-4o-generated synthetic data?
In this work, we identify two key advantages of synthetic images. First, they
can complement rare scenarios in real-world datasets, such as surreal fantasy
or multi-reference image generation, which frequently occur in user queries.
Second, they provide clean and controllable supervision. Real-world data often
contains complex background noise and inherent misalignment between text
descriptions and image content, whereas synthetic images offer pure backgrounds
and long-tailed supervision signals, facilitating more accurate text-to-image
alignment. Building on these insights, we introduce Echo-4o-Image, a 180K-scale
synthetic dataset generated by GPT-4o, harnessing the power of synthetic image
data to address blind spots in real-world coverage. Using this dataset, we
fine-tune the unified multimodal generation baseline Bagel to obtain Echo-4o.
In addition, we propose two new evaluation benchmarks for a more accurate and
challenging assessment of image generation capabilities: GenEval++, which
increases instruction complexity to mitigate score saturation, and
Imagine-Bench, which focuses on evaluating both the understanding and
generation of imaginative content. Echo-4o demonstrates strong performance
across standard benchmarks. Moreover, applying Echo-4o-Image to other
foundation models (e.g., OmniGen2, BLIP3-o) yields consistent performance gains
across multiple metrics, highlighting the datasets strong transferability.