Echo-4o: Aprovechando el Poder de las Imágenes Sintéticas de GPT-4o para una Mejor Generación de Imágenes
Echo-4o: Harnessing the Power of GPT-4o Synthetic Images for Improved Image Generation
August 13, 2025
Autores: Junyan Ye, Dongzhi Jiang, Zihao Wang, Leqi Zhu, Zhenghao Hu, Zilong Huang, Jun He, Zhiyuan Yan, Jinghua Yu, Hongsheng Li, Conghui He, Weijia Li
cs.AI
Resumen
Recientemente, GPT-4o ha captado una atención significativa por su destacado rendimiento en la generación de imágenes, aunque los modelos de código abierto aún se quedan atrás. Varios estudios han explorado la destilación de datos de imágenes de GPT-4o para mejorar los modelos de código abierto, logrando avances notables. Sin embargo, una pregunta clave persiste: dado que los conjuntos de datos de imágenes del mundo real ya constituyen una fuente natural de datos de alta calidad, ¿por qué deberíamos utilizar datos sintéticos generados por GPT-4o? En este trabajo, identificamos dos ventajas clave de las imágenes sintéticas. En primer lugar, pueden complementar escenarios raros en los conjuntos de datos del mundo real, como la fantasía surrealista o la generación de imágenes con múltiples referencias, que ocurren con frecuencia en las consultas de los usuarios. En segundo lugar, proporcionan una supervisión limpia y controlable. Los datos del mundo real a menudo contienen ruido de fondo complejo y desalineaciones inherentes entre las descripciones de texto y el contenido de las imágenes, mientras que las imágenes sintéticas ofrecen fondos puros y señales de supervisión de cola larga, facilitando una alineación más precisa entre texto e imagen. Basándonos en estas ideas, presentamos Echo-4o-Image, un conjunto de datos sintéticos de 180K generado por GPT-4o, aprovechando el poder de los datos de imágenes sintéticas para abordar los puntos ciegos en la cobertura del mundo real. Utilizando este conjunto de datos, ajustamos el modelo de generación multimodal unificado Bagel para obtener Echo-4o. Además, proponemos dos nuevos puntos de referencia de evaluación para una valoración más precisa y desafiante de las capacidades de generación de imágenes: GenEval++, que aumenta la complejidad de las instrucciones para mitigar la saturación de puntuaciones, e Imagine-Bench, que se centra en evaluar tanto la comprensión como la generación de contenido imaginativo. Echo-4o demuestra un rendimiento sólido en los puntos de referencia estándar. Además, la aplicación de Echo-4o-Image a otros modelos base (por ejemplo, OmniGen2, BLIP3-o) produce ganancias de rendimiento consistentes en múltiples métricas, destacando la fuerte transferibilidad del conjunto de datos.
English
Recently, GPT-4o has garnered significant attention for its strong
performance in image generation, yet open-source models still lag behind.
Several studies have explored distilling image data from GPT-4o to enhance
open-source models, achieving notable progress. However, a key question
remains: given that real-world image datasets already constitute a natural
source of high-quality data, why should we use GPT-4o-generated synthetic data?
In this work, we identify two key advantages of synthetic images. First, they
can complement rare scenarios in real-world datasets, such as surreal fantasy
or multi-reference image generation, which frequently occur in user queries.
Second, they provide clean and controllable supervision. Real-world data often
contains complex background noise and inherent misalignment between text
descriptions and image content, whereas synthetic images offer pure backgrounds
and long-tailed supervision signals, facilitating more accurate text-to-image
alignment. Building on these insights, we introduce Echo-4o-Image, a 180K-scale
synthetic dataset generated by GPT-4o, harnessing the power of synthetic image
data to address blind spots in real-world coverage. Using this dataset, we
fine-tune the unified multimodal generation baseline Bagel to obtain Echo-4o.
In addition, we propose two new evaluation benchmarks for a more accurate and
challenging assessment of image generation capabilities: GenEval++, which
increases instruction complexity to mitigate score saturation, and
Imagine-Bench, which focuses on evaluating both the understanding and
generation of imaginative content. Echo-4o demonstrates strong performance
across standard benchmarks. Moreover, applying Echo-4o-Image to other
foundation models (e.g., OmniGen2, BLIP3-o) yields consistent performance gains
across multiple metrics, highlighting the datasets strong transferability.