GPT-ImgEval: Un Benchmark Completo per la Diagnosi di GPT4o nella Generazione di Immagini
GPT-ImgEval: A Comprehensive Benchmark for Diagnosing GPT4o in Image Generation
April 3, 2025
Autori: Zhiyuan Yan, Junyan Ye, Weijia Li, Zilong Huang, Shenghai Yuan, Xiangyang He, Kaiqing Lin, Jun He, Conghui He, Li Yuan
cs.AI
Abstract
I recenti progressi nel modello GPT4o di OpenAI hanno dimostrato capacità sorprendentemente buone nella generazione e modifica di immagini, suscitando un notevole entusiasmo nella comunità. Questo rapporto tecnico presenta il primo benchmark di valutazione (denominato GPT-ImgEval), che analizza in modo quantitativo e qualitativo le prestazioni di GPT-4o lungo tre dimensioni critiche: (1) qualità della generazione, (2) competenza nella modifica e (3) sintesi semantica basata sulla conoscenza del mondo. In tutte e tre le attività, GPT-4o dimostra prestazioni solide, superando significativamente i metodi esistenti sia nel controllo della generazione di immagini che nella qualità dell'output, mostrando al contempo eccezionali capacità di ragionamento basato sulla conoscenza. Inoltre, basandosi sui dati generati da GPT-4o, proponiamo un approccio basato su modelli di classificazione per investigare l'architettura sottostante di GPT-4o, dove i nostri risultati empirici suggeriscono che il modello è composto da una componente auto-regressiva (AR) combinata con una testa basata su diffusione per il decoding delle immagini, piuttosto che da architetture di tipo VAR. Forniamo anche una speculazione completa sull'architettura complessiva di GPT-4o. In aggiunta, conduciamo una serie di analisi per identificare e visualizzare le specifiche limitazioni di GPT-4o e gli artefatti sintetici comunemente osservati nella sua generazione di immagini. Presentiamo inoltre uno studio comparativo sulla modifica di immagini in più round tra GPT-4o e Gemini 2.0 Flash e discutiamo le implicazioni di sicurezza degli output di GPT-4o, in particolare la loro rilevabilità da parte dei modelli forensi esistenti. Speriamo che il nostro lavoro possa offrire spunti preziosi e fornire un benchmark affidabile per guidare la ricerca futura, favorire la riproducibilità e accelerare l'innovazione nel campo della generazione di immagini e oltre. I codici e i dataset utilizzati per valutare GPT-4o sono disponibili all'indirizzo https://github.com/PicoTrex/GPT-ImgEval.
English
The recent breakthroughs in OpenAI's GPT4o model have demonstrated
surprisingly good capabilities in image generation and editing, resulting in
significant excitement in the community. This technical report presents the
first-look evaluation benchmark (named GPT-ImgEval), quantitatively and
qualitatively diagnosing GPT-4o's performance across three critical dimensions:
(1) generation quality, (2) editing proficiency, and (3) world
knowledge-informed semantic synthesis. Across all three tasks, GPT-4o
demonstrates strong performance, significantly surpassing existing methods in
both image generation control and output quality, while also showcasing
exceptional knowledge reasoning capabilities. Furthermore, based on the
GPT-4o's generated data, we propose a classification-model-based approach to
investigate the underlying architecture of GPT-4o, where our empirical results
suggest the model consists of an auto-regressive (AR) combined with a
diffusion-based head for image decoding, rather than the VAR-like
architectures. We also provide a complete speculation on GPT-4o's overall
architecture. In addition, we conduct a series of analyses to identify and
visualize GPT-4o's specific limitations and the synthetic artifacts commonly
observed in its image generation. We also present a comparative study of
multi-round image editing between GPT-4o and Gemini 2.0 Flash, and discuss the
safety implications of GPT-4o's outputs, particularly their detectability by
existing image forensic models. We hope that our work can offer valuable
insight and provide a reliable benchmark to guide future research, foster
reproducibility, and accelerate innovation in the field of image generation and
beyond. The codes and datasets used for evaluating GPT-4o can be found at
https://github.com/PicoTrex/GPT-ImgEval.Summary
AI-Generated Summary