GPT-ImgEval : Un Benchmark Complet pour le Diagnostic de GPT4o en Génération d'Images

papers.abstract

Les récentes avancées du modèle GPT4o d'OpenAI ont démontré des capacités étonnamment performantes en génération et édition d'images, suscitant un enthousiasme considérable dans la communauté. Ce rapport technique présente le premier benchmark d'évaluation (nommé GPT-ImgEval), diagnostiquant de manière quantitative et qualitative les performances de GPT-4o selon trois dimensions critiques : (1) la qualité de génération, (2) la maîtrise de l'édition, et (3) la synthèse sémantique informée par la connaissance du monde. Dans ces trois tâches, GPT-4o affiche des performances solides, surpassant significativement les méthodes existantes en termes de contrôle de la génération d'images et de qualité des résultats, tout en démontrant des capacités exceptionnelles de raisonnement basé sur la connaissance. De plus, en nous appuyant sur les données générées par GPT-4o, nous proposons une approche basée sur un modèle de classification pour investiguer l'architecture sous-jacente de GPT-4o. Nos résultats empiriques suggèrent que le modèle combine une tête auto-régressive (AR) avec une tête basée sur la diffusion pour le décodage d'images, plutôt qu'une architecture de type VAR. Nous fournissons également une spéculation complète sur l'architecture globale de GPT-4o. Par ailleurs, nous menons une série d'analyses pour identifier et visualiser les limitations spécifiques de GPT-4o ainsi que les artefacts synthétiques couramment observés dans sa génération d'images. Nous présentons également une étude comparative de l'édition d'images en plusieurs étapes entre GPT-4o et Gemini 2.0 Flash, et discutons des implications en matière de sécurité des sorties de GPT-4o, notamment leur détectabilité par les modèles de forensic d'images existants. Nous espérons que notre travail offrira des insights précieux et fournira un benchmark fiable pour guider les recherches futures, favoriser la reproductibilité et accélérer l'innovation dans le domaine de la génération d'images et au-delà. Les codes et jeux de données utilisés pour évaluer GPT-4o sont disponibles à l'adresse suivante : https://github.com/PicoTrex/GPT-ImgEval.

English

The recent breakthroughs in OpenAI's GPT4o model have demonstrated surprisingly good capabilities in image generation and editing, resulting in significant excitement in the community. This technical report presents the first-look evaluation benchmark (named GPT-ImgEval), quantitatively and qualitatively diagnosing GPT-4o's performance across three critical dimensions: (1) generation quality, (2) editing proficiency, and (3) world knowledge-informed semantic synthesis. Across all three tasks, GPT-4o demonstrates strong performance, significantly surpassing existing methods in both image generation control and output quality, while also showcasing exceptional knowledge reasoning capabilities. Furthermore, based on the GPT-4o's generated data, we propose a classification-model-based approach to investigate the underlying architecture of GPT-4o, where our empirical results suggest the model consists of an auto-regressive (AR) combined with a diffusion-based head for image decoding, rather than the VAR-like architectures. We also provide a complete speculation on GPT-4o's overall architecture. In addition, we conduct a series of analyses to identify and visualize GPT-4o's specific limitations and the synthetic artifacts commonly observed in its image generation. We also present a comparative study of multi-round image editing between GPT-4o and Gemini 2.0 Flash, and discuss the safety implications of GPT-4o's outputs, particularly their detectability by existing image forensic models. We hope that our work can offer valuable insight and provide a reliable benchmark to guide future research, foster reproducibility, and accelerate innovation in the field of image generation and beyond. The codes and datasets used for evaluating GPT-4o can be found at https://github.com/PicoTrex/GPT-ImgEval.

GPT-ImgEval : Un Benchmark Complet pour le Diagnostic de GPT4o en Génération d'Images

GPT-ImgEval: A Comprehensive Benchmark for Diagnosing GPT4o in Image Generation

papers.abstract

Support