GPT-ImgEval : Un Benchmark Complet pour le Diagnostic de GPT4o en Génération d'Images
GPT-ImgEval: A Comprehensive Benchmark for Diagnosing GPT4o in Image Generation
April 3, 2025
Auteurs: Zhiyuan Yan, Junyan Ye, Weijia Li, Zilong Huang, Shenghai Yuan, Xiangyang He, Kaiqing Lin, Jun He, Conghui He, Li Yuan
cs.AI
Résumé
Les récentes avancées du modèle GPT4o d'OpenAI ont démontré des capacités étonnamment performantes en génération et édition d'images, suscitant un enthousiasme considérable dans la communauté. Ce rapport technique présente le premier benchmark d'évaluation (nommé GPT-ImgEval), diagnostiquant de manière quantitative et qualitative les performances de GPT-4o selon trois dimensions critiques : (1) la qualité de génération, (2) la maîtrise de l'édition, et (3) la synthèse sémantique informée par la connaissance du monde. Dans ces trois tâches, GPT-4o affiche des performances solides, surpassant significativement les méthodes existantes en termes de contrôle de la génération d'images et de qualité des résultats, tout en démontrant des capacités exceptionnelles de raisonnement basé sur la connaissance. De plus, en nous appuyant sur les données générées par GPT-4o, nous proposons une approche basée sur un modèle de classification pour investiguer l'architecture sous-jacente de GPT-4o. Nos résultats empiriques suggèrent que le modèle combine une tête auto-régressive (AR) avec une tête basée sur la diffusion pour le décodage d'images, plutôt qu'une architecture de type VAR. Nous fournissons également une spéculation complète sur l'architecture globale de GPT-4o. Par ailleurs, nous menons une série d'analyses pour identifier et visualiser les limitations spécifiques de GPT-4o ainsi que les artefacts synthétiques couramment observés dans sa génération d'images. Nous présentons également une étude comparative de l'édition d'images en plusieurs étapes entre GPT-4o et Gemini 2.0 Flash, et discutons des implications en matière de sécurité des sorties de GPT-4o, notamment leur détectabilité par les modèles de forensic d'images existants. Nous espérons que notre travail offrira des insights précieux et fournira un benchmark fiable pour guider les recherches futures, favoriser la reproductibilité et accélérer l'innovation dans le domaine de la génération d'images et au-delà. Les codes et jeux de données utilisés pour évaluer GPT-4o sont disponibles à l'adresse suivante : https://github.com/PicoTrex/GPT-ImgEval.
English
The recent breakthroughs in OpenAI's GPT4o model have demonstrated
surprisingly good capabilities in image generation and editing, resulting in
significant excitement in the community. This technical report presents the
first-look evaluation benchmark (named GPT-ImgEval), quantitatively and
qualitatively diagnosing GPT-4o's performance across three critical dimensions:
(1) generation quality, (2) editing proficiency, and (3) world
knowledge-informed semantic synthesis. Across all three tasks, GPT-4o
demonstrates strong performance, significantly surpassing existing methods in
both image generation control and output quality, while also showcasing
exceptional knowledge reasoning capabilities. Furthermore, based on the
GPT-4o's generated data, we propose a classification-model-based approach to
investigate the underlying architecture of GPT-4o, where our empirical results
suggest the model consists of an auto-regressive (AR) combined with a
diffusion-based head for image decoding, rather than the VAR-like
architectures. We also provide a complete speculation on GPT-4o's overall
architecture. In addition, we conduct a series of analyses to identify and
visualize GPT-4o's specific limitations and the synthetic artifacts commonly
observed in its image generation. We also present a comparative study of
multi-round image editing between GPT-4o and Gemini 2.0 Flash, and discuss the
safety implications of GPT-4o's outputs, particularly their detectability by
existing image forensic models. We hope that our work can offer valuable
insight and provide a reliable benchmark to guide future research, foster
reproducibility, and accelerate innovation in the field of image generation and
beyond. The codes and datasets used for evaluating GPT-4o can be found at
https://github.com/PicoTrex/GPT-ImgEval.Summary
AI-Generated Summary