Echo-4o: Benutten van de Kracht van GPT-4o Synthetische Afbeeldingen voor Verbeterde Afbeeldingsgeneratie
Echo-4o: Harnessing the Power of GPT-4o Synthetic Images for Improved Image Generation
August 13, 2025
Auteurs: Junyan Ye, Dongzhi Jiang, Zihao Wang, Leqi Zhu, Zhenghao Hu, Zilong Huang, Jun He, Zhiyuan Yan, Jinghua Yu, Hongsheng Li, Conghui He, Weijia Li
cs.AI
Samenvatting
Onlangs heeft GPT-4o aanzienlijke aandacht gekregen vanwege zijn sterke prestaties in beeldgeneratie, hoewel open-source-modellen nog achterblijven. Verschillende studies hebben het destilleren van beeldgegevens uit GPT-4o onderzocht om open-source-modellen te verbeteren, waarbij opmerkelijke vooruitgang is geboekt. Een belangrijke vraag blijft echter: aangezien real-world beelddatasets al een natuurlijke bron van hoogwaardige gegevens vormen, waarom zouden we dan synthetische gegevens van GPT-4o gebruiken? In dit werk identificeren we twee belangrijke voordelen van synthetische beelden. Ten eerste kunnen ze zeldzame scenario's in real-world datasets aanvullen, zoals surrealistische fantasie of multi-referentie beeldgeneratie, die vaak voorkomen in gebruikersquery's. Ten tweede bieden ze schone en controleerbare supervisie. Real-world gegevens bevatten vaak complexe achtergrondruis en inherente misalignering tussen tekstbeschrijvingen en beeldinhoud, terwijl synthetische beelden zuivere achtergronden en lange-staart supervisiesignalen bieden, wat een nauwkeurigere tekst-naar-beeld alignering vergemakkelijkt. Op basis van deze inzichten introduceren we Echo-4o-Image, een synthetische dataset op schaal van 180K gegenereerd door GPT-4o, die de kracht van synthetische beeldgegevens benut om blinde vlekken in real-world dekking aan te pakken. Met behulp van deze dataset fine-tunen we het geünificeerde multimodale generatie-basismodel Bagel om Echo-4o te verkrijgen. Daarnaast stellen we twee nieuwe evaluatiebenchmarks voor voor een nauwkeurigere en uitdagendere beoordeling van beeldgeneratiecapaciteiten: GenEval++, dat de instructiecomplexiteit verhoogt om scoresaturatie te verminderen, en Imagine-Bench, dat zich richt op het evalueren van zowel het begrip als de generatie van fantasierijke inhoud. Echo-4o toont sterke prestaties op standaardbenchmarks. Bovendien levert de toepassing van Echo-4o-Image op andere foundation-modellen (bijv. OmniGen2, BLIP3-o) consistente prestatieverbeteringen op over meerdere metrieken, wat de sterke overdraagbaarheid van de dataset benadrukt.
English
Recently, GPT-4o has garnered significant attention for its strong
performance in image generation, yet open-source models still lag behind.
Several studies have explored distilling image data from GPT-4o to enhance
open-source models, achieving notable progress. However, a key question
remains: given that real-world image datasets already constitute a natural
source of high-quality data, why should we use GPT-4o-generated synthetic data?
In this work, we identify two key advantages of synthetic images. First, they
can complement rare scenarios in real-world datasets, such as surreal fantasy
or multi-reference image generation, which frequently occur in user queries.
Second, they provide clean and controllable supervision. Real-world data often
contains complex background noise and inherent misalignment between text
descriptions and image content, whereas synthetic images offer pure backgrounds
and long-tailed supervision signals, facilitating more accurate text-to-image
alignment. Building on these insights, we introduce Echo-4o-Image, a 180K-scale
synthetic dataset generated by GPT-4o, harnessing the power of synthetic image
data to address blind spots in real-world coverage. Using this dataset, we
fine-tune the unified multimodal generation baseline Bagel to obtain Echo-4o.
In addition, we propose two new evaluation benchmarks for a more accurate and
challenging assessment of image generation capabilities: GenEval++, which
increases instruction complexity to mitigate score saturation, and
Imagine-Bench, which focuses on evaluating both the understanding and
generation of imaginative content. Echo-4o demonstrates strong performance
across standard benchmarks. Moreover, applying Echo-4o-Image to other
foundation models (e.g., OmniGen2, BLIP3-o) yields consistent performance gains
across multiple metrics, highlighting the datasets strong transferability.