ChatPaper.aiChatPaper

Echo-4o: Nutzung der Leistungsfähigkeit von GPT-4o-Synthesebildern für verbesserte Bildgenerierung

Echo-4o: Harnessing the Power of GPT-4o Synthetic Images for Improved Image Generation

August 13, 2025
papers.authors: Junyan Ye, Dongzhi Jiang, Zihao Wang, Leqi Zhu, Zhenghao Hu, Zilong Huang, Jun He, Zhiyuan Yan, Jinghua Yu, Hongsheng Li, Conghui He, Weijia Li
cs.AI

papers.abstract

Kürzlich hat GPT-4o aufgrund seiner starken Leistung in der Bildgenerierung erhebliche Aufmerksamkeit erregt, doch Open-Source-Modelle hinken noch hinterher. Mehrere Studien haben die Extraktion von Bilddaten aus GPT-4o untersucht, um Open-Source-Modelle zu verbessern, und dabei bemerkenswerte Fortschritte erzielt. Dennoch bleibt eine zentrale Frage: Da reale Bilddatensätze bereits eine natürliche Quelle hochwertiger Daten darstellen, warum sollten wir synthetische Daten von GPT-4o verwenden? In dieser Arbeit identifizieren wir zwei wesentliche Vorteile synthetischer Bilder. Erstens können sie seltene Szenarien in realen Datensätzen ergänzen, wie surrealistische Fantasien oder Multi-Referenz-Bildgenerierung, die häufig in Benutzeranfragen auftreten. Zweitens bieten sie saubere und kontrollierbare Supervision. Reale Daten enthalten oft komplexes Hintergrundrauschen und inhärente Fehlausrichtungen zwischen Textbeschreibungen und Bildinhalten, während synthetische Bilder reine Hintergründe und langschwänzige Supervisionssignale bieten, was eine präzisere Text-zu-Bild-Ausrichtung ermöglicht. Aufbauend auf diesen Erkenntnissen stellen wir Echo-4o-Image vor, einen 180K-großen synthetischen Datensatz, der von GPT-4o generiert wurde und die Kraft synthetischer Bilddaten nutzt, um blinde Flecken in der realen Abdeckung zu adressieren. Mit diesem Datensatz feintunen wir das einheitliche multimodale Generierungs-Basismodell Bagel, um Echo-4o zu erhalten. Zusätzlich schlagen wir zwei neue Evaluierungsbenchmarks vor, um die Bildgenerierungsfähigkeiten genauer und herausfordernder zu bewerten: GenEval++, das die Komplexität der Anweisungen erhöht, um die Punktesättigung zu mildern, und Imagine-Bench, das sich auf die Bewertung des Verständnisses und der Generierung von kreativem Inhalt konzentriert. Echo-4o zeigt eine starke Leistung über Standardbenchmarks hinweg. Darüber hinaus führt die Anwendung von Echo-4o-Image auf andere Basismodelle (z.B. OmniGen2, BLIP3-o) zu konsistenten Leistungssteigerungen über mehrere Metriken hinweg, was die starke Übertragbarkeit des Datensatzes unterstreicht.
English
Recently, GPT-4o has garnered significant attention for its strong performance in image generation, yet open-source models still lag behind. Several studies have explored distilling image data from GPT-4o to enhance open-source models, achieving notable progress. However, a key question remains: given that real-world image datasets already constitute a natural source of high-quality data, why should we use GPT-4o-generated synthetic data? In this work, we identify two key advantages of synthetic images. First, they can complement rare scenarios in real-world datasets, such as surreal fantasy or multi-reference image generation, which frequently occur in user queries. Second, they provide clean and controllable supervision. Real-world data often contains complex background noise and inherent misalignment between text descriptions and image content, whereas synthetic images offer pure backgrounds and long-tailed supervision signals, facilitating more accurate text-to-image alignment. Building on these insights, we introduce Echo-4o-Image, a 180K-scale synthetic dataset generated by GPT-4o, harnessing the power of synthetic image data to address blind spots in real-world coverage. Using this dataset, we fine-tune the unified multimodal generation baseline Bagel to obtain Echo-4o. In addition, we propose two new evaluation benchmarks for a more accurate and challenging assessment of image generation capabilities: GenEval++, which increases instruction complexity to mitigate score saturation, and Imagine-Bench, which focuses on evaluating both the understanding and generation of imaginative content. Echo-4o demonstrates strong performance across standard benchmarks. Moreover, applying Echo-4o-Image to other foundation models (e.g., OmniGen2, BLIP3-o) yields consistent performance gains across multiple metrics, highlighting the datasets strong transferability.
PDF162August 14, 2025