ChatPaper.aiChatPaper

Echo-4o: Aproveitando o Poder das Imagens Sintéticas do GPT-4o para Melhorar a Geração de Imagens

Echo-4o: Harnessing the Power of GPT-4o Synthetic Images for Improved Image Generation

August 13, 2025
Autores: Junyan Ye, Dongzhi Jiang, Zihao Wang, Leqi Zhu, Zhenghao Hu, Zilong Huang, Jun He, Zhiyuan Yan, Jinghua Yu, Hongsheng Li, Conghui He, Weijia Li
cs.AI

Resumo

Recentemente, o GPT-4o tem atraído atenção significativa por seu forte desempenho na geração de imagens, embora os modelos de código aberto ainda estejam atrás. Vários estudos exploraram a destilação de dados de imagem do GPT-4o para aprimorar modelos de código aberto, alcançando progressos notáveis. No entanto, uma questão fundamental permanece: dado que os conjuntos de dados de imagens do mundo real já constituem uma fonte natural de dados de alta qualidade, por que deveríamos usar dados sintéticos gerados pelo GPT-4o? Neste trabalho, identificamos duas vantagens principais das imagens sintéticas. Primeiro, elas podem complementar cenários raros em conjuntos de dados do mundo real, como fantasia surreal ou geração de imagens com múltiplas referências, que frequentemente ocorrem em consultas de usuários. Segundo, elas fornecem supervisão limpa e controlável. Os dados do mundo real muitas vezes contêm ruídos complexos de fundo e desalinhamentos inerentes entre descrições de texto e conteúdo de imagem, enquanto as imagens sintéticas oferecem fundos puros e sinais de supervisão de cauda longa, facilitando um alinhamento mais preciso entre texto e imagem. Com base nessas percepções, introduzimos o Echo-4o-Image, um conjunto de dados sintéticos em escala de 180K gerado pelo GPT-4o, aproveitando o poder dos dados de imagem sintética para abordar pontos cegos na cobertura do mundo real. Usando esse conjunto de dados, ajustamos finamente a linha de base de geração multimodal unificada Bagel para obter o Echo-4o. Além disso, propomos dois novos benchmarks de avaliação para uma avaliação mais precisa e desafiadora das capacidades de geração de imagens: o GenEval++, que aumenta a complexidade das instruções para mitigar a saturação de pontuação, e o Imagine-Bench, que se concentra em avaliar tanto a compreensão quanto a geração de conteúdo imaginativo. O Echo-4o demonstra um forte desempenho em benchmarks padrão. Além disso, a aplicação do Echo-4o-Image a outros modelos de base (por exemplo, OmniGen2, BLIP3-o) resulta em ganhos consistentes de desempenho em várias métricas, destacando a forte transferibilidade do conjunto de dados.
English
Recently, GPT-4o has garnered significant attention for its strong performance in image generation, yet open-source models still lag behind. Several studies have explored distilling image data from GPT-4o to enhance open-source models, achieving notable progress. However, a key question remains: given that real-world image datasets already constitute a natural source of high-quality data, why should we use GPT-4o-generated synthetic data? In this work, we identify two key advantages of synthetic images. First, they can complement rare scenarios in real-world datasets, such as surreal fantasy or multi-reference image generation, which frequently occur in user queries. Second, they provide clean and controllable supervision. Real-world data often contains complex background noise and inherent misalignment between text descriptions and image content, whereas synthetic images offer pure backgrounds and long-tailed supervision signals, facilitating more accurate text-to-image alignment. Building on these insights, we introduce Echo-4o-Image, a 180K-scale synthetic dataset generated by GPT-4o, harnessing the power of synthetic image data to address blind spots in real-world coverage. Using this dataset, we fine-tune the unified multimodal generation baseline Bagel to obtain Echo-4o. In addition, we propose two new evaluation benchmarks for a more accurate and challenging assessment of image generation capabilities: GenEval++, which increases instruction complexity to mitigate score saturation, and Imagine-Bench, which focuses on evaluating both the understanding and generation of imaginative content. Echo-4o demonstrates strong performance across standard benchmarks. Moreover, applying Echo-4o-Image to other foundation models (e.g., OmniGen2, BLIP3-o) yields consistent performance gains across multiple metrics, highlighting the datasets strong transferability.
PDF252August 14, 2025