ChatPaper.aiChatPaper

Echo-4o: GPT-4o 합성 이미지의 힘을 활용한 향상된 이미지 생성

Echo-4o: Harnessing the Power of GPT-4o Synthetic Images for Improved Image Generation

August 13, 2025
저자: Junyan Ye, Dongzhi Jiang, Zihao Wang, Leqi Zhu, Zhenghao Hu, Zilong Huang, Jun He, Zhiyuan Yan, Jinghua Yu, Hongsheng Li, Conghui He, Weijia Li
cs.AI

초록

최근 GPT-4o는 이미지 생성에서의 강력한 성능으로 큰 주목을 받았지만, 오픈소스 모델들은 여전히 뒤처져 있습니다. 여러 연구에서 GPT-4o로부터 이미지 데이터를 추출하여 오픈소스 모델을 개선하려는 시도가 이루어졌고, 이는 상당한 진전을 이루었습니다. 그러나 여전히 중요한 질문이 남아 있습니다: 실제 세계의 이미지 데이터셋이 이미 고품질 데이터의 자연스러운 원천인데, 왜 GPT-4o가 생성한 합성 데이터를 사용해야 하는가? 이 연구에서 우리는 합성 이미지의 두 가지 주요 장점을 확인했습니다. 첫째, 합성 이미지는 실제 데이터셋에서 드물게 나타나는 시나리오, 예를 들어 초현실적인 판타지나 다중 참조 이미지 생성과 같은 사용자 쿼리에서 빈번히 발생하는 상황을 보완할 수 있습니다. 둘째, 합성 이미지는 깨끗하고 제어 가능한 감독을 제공합니다. 실제 데이터는 종종 복잡한 배경 노이즈와 텍스트 설명과 이미지 내용 간의 불일치를 포함하지만, 합성 이미지는 순수한 배경과 긴 꼬리 감독 신호를 제공하여 텍스트-이미지 정렬을 더 정확하게 만듭니다. 이러한 통찰을 바탕으로, 우리는 GPT-4o로 생성된 180K 규모의 합성 데이터셋인 Echo-4o-Image를 소개하며, 합성 이미지 데이터의 힘을 활용하여 실제 세계 데이터의 사각지대를 해결합니다. 이 데이터셋을 사용하여 우리는 통합 멀티모달 생성 베이스라인인 Bagel을 미세 조정하여 Echo-4o를 얻었습니다. 또한, 이미지 생성 능력을 더 정확하고 도전적으로 평가하기 위해 두 가지 새로운 평가 벤치마크를 제안합니다: 점수 포화를 완화하기 위해 지시의 복잡성을 증가시킨 GenEval++와, 상상력 있는 콘텐츠의 이해와 생성을 모두 평가하는 데 초점을 맞춘 Imagine-Bench입니다. Echo-4o는 표준 벤치마크에서 강력한 성능을 보여줍니다. 더 나아가, Echo-4o-Image를 다른 기반 모델(예: OmniGen2, BLIP3-o)에 적용하면 여러 지표에서 일관된 성능 향상을 얻을 수 있으며, 이는 데이터셋의 강력한 전이성을 강조합니다.
English
Recently, GPT-4o has garnered significant attention for its strong performance in image generation, yet open-source models still lag behind. Several studies have explored distilling image data from GPT-4o to enhance open-source models, achieving notable progress. However, a key question remains: given that real-world image datasets already constitute a natural source of high-quality data, why should we use GPT-4o-generated synthetic data? In this work, we identify two key advantages of synthetic images. First, they can complement rare scenarios in real-world datasets, such as surreal fantasy or multi-reference image generation, which frequently occur in user queries. Second, they provide clean and controllable supervision. Real-world data often contains complex background noise and inherent misalignment between text descriptions and image content, whereas synthetic images offer pure backgrounds and long-tailed supervision signals, facilitating more accurate text-to-image alignment. Building on these insights, we introduce Echo-4o-Image, a 180K-scale synthetic dataset generated by GPT-4o, harnessing the power of synthetic image data to address blind spots in real-world coverage. Using this dataset, we fine-tune the unified multimodal generation baseline Bagel to obtain Echo-4o. In addition, we propose two new evaluation benchmarks for a more accurate and challenging assessment of image generation capabilities: GenEval++, which increases instruction complexity to mitigate score saturation, and Imagine-Bench, which focuses on evaluating both the understanding and generation of imaginative content. Echo-4o demonstrates strong performance across standard benchmarks. Moreover, applying Echo-4o-Image to other foundation models (e.g., OmniGen2, BLIP3-o) yields consistent performance gains across multiple metrics, highlighting the datasets strong transferability.
PDF172August 14, 2025