Echo-4o: Sfruttare la Potenza delle Immagini Sintetiche GPT-4o per una Generazione di Immagini Migliorata
Echo-4o: Harnessing the Power of GPT-4o Synthetic Images for Improved Image Generation
August 13, 2025
Autori: Junyan Ye, Dongzhi Jiang, Zihao Wang, Leqi Zhu, Zhenghao Hu, Zilong Huang, Jun He, Zhiyuan Yan, Jinghua Yu, Hongsheng Li, Conghui He, Weijia Li
cs.AI
Abstract
Recentemente, GPT-4o ha attirato notevole attenzione per le sue eccellenti prestazioni nella generazione di immagini, sebbene i modelli open-source rimangano ancora indietro. Diversi studi hanno esplorato la distillazione di dati immagine da GPT-4o per migliorare i modelli open-source, ottenendo progressi significativi. Tuttavia, una domanda chiave rimane: dato che i dataset di immagini del mondo reale costituiscono già una fonte naturale di dati di alta qualità, perché dovremmo utilizzare dati sintetici generati da GPT-4o? In questo lavoro, identifichiamo due vantaggi principali delle immagini sintetiche. In primo luogo, possono integrare scenari rari nei dataset del mondo reale, come la fantasia surreale o la generazione di immagini con più riferimenti, che si verificano frequentemente nelle query degli utenti. In secondo luogo, forniscono una supervisione pulita e controllabile. I dati del mondo reale spesso contengono rumore di fondo complesso e disallineamenti intrinseci tra le descrizioni testuali e il contenuto delle immagini, mentre le immagini sintetiche offrono sfondi puri e segnali di supervisione a coda lunga, facilitando un allineamento più preciso tra testo e immagine. Basandoci su queste intuizioni, introduciamo Echo-4o-Image, un dataset sintetico su scala 180K generato da GPT-4o, sfruttando il potere dei dati immagine sintetici per affrontare i punti ciechi nella copertura del mondo reale. Utilizzando questo dataset, ottimizziamo il baseline di generazione multimodale unificato Bagel per ottenere Echo-4o. Inoltre, proponiamo due nuovi benchmark di valutazione per una valutazione più accurata e impegnativa delle capacità di generazione di immagini: GenEval++, che aumenta la complessità delle istruzioni per mitigare la saturazione dei punteggi, e Imagine-Bench, che si concentra sulla valutazione sia della comprensione che della generazione di contenuti immaginativi. Echo-4o dimostra prestazioni solide su benchmark standard. Inoltre, l'applicazione di Echo-4o-Image ad altri modelli di base (ad esempio, OmniGen2, BLIP3-o) produce guadagni di prestazioni consistenti su più metriche, evidenziando la forte trasferibilità del dataset.
English
Recently, GPT-4o has garnered significant attention for its strong
performance in image generation, yet open-source models still lag behind.
Several studies have explored distilling image data from GPT-4o to enhance
open-source models, achieving notable progress. However, a key question
remains: given that real-world image datasets already constitute a natural
source of high-quality data, why should we use GPT-4o-generated synthetic data?
In this work, we identify two key advantages of synthetic images. First, they
can complement rare scenarios in real-world datasets, such as surreal fantasy
or multi-reference image generation, which frequently occur in user queries.
Second, they provide clean and controllable supervision. Real-world data often
contains complex background noise and inherent misalignment between text
descriptions and image content, whereas synthetic images offer pure backgrounds
and long-tailed supervision signals, facilitating more accurate text-to-image
alignment. Building on these insights, we introduce Echo-4o-Image, a 180K-scale
synthetic dataset generated by GPT-4o, harnessing the power of synthetic image
data to address blind spots in real-world coverage. Using this dataset, we
fine-tune the unified multimodal generation baseline Bagel to obtain Echo-4o.
In addition, we propose two new evaluation benchmarks for a more accurate and
challenging assessment of image generation capabilities: GenEval++, which
increases instruction complexity to mitigate score saturation, and
Imagine-Bench, which focuses on evaluating both the understanding and
generation of imaginative content. Echo-4o demonstrates strong performance
across standard benchmarks. Moreover, applying Echo-4o-Image to other
foundation models (e.g., OmniGen2, BLIP3-o) yields consistent performance gains
across multiple metrics, highlighting the datasets strong transferability.