GPT-ImgEval: Un Benchmark Completo per la Diagnosi di GPT4o nella Generazione di Immagini

Abstract

I recenti progressi nel modello GPT4o di OpenAI hanno dimostrato capacità sorprendentemente buone nella generazione e modifica di immagini, suscitando un notevole entusiasmo nella comunità. Questo rapporto tecnico presenta il primo benchmark di valutazione (denominato GPT-ImgEval), che analizza in modo quantitativo e qualitativo le prestazioni di GPT-4o lungo tre dimensioni critiche: (1) qualità della generazione, (2) competenza nella modifica e (3) sintesi semantica basata sulla conoscenza del mondo. In tutte e tre le attività, GPT-4o dimostra prestazioni solide, superando significativamente i metodi esistenti sia nel controllo della generazione di immagini che nella qualità dell'output, mostrando al contempo eccezionali capacità di ragionamento basato sulla conoscenza. Inoltre, basandosi sui dati generati da GPT-4o, proponiamo un approccio basato su modelli di classificazione per investigare l'architettura sottostante di GPT-4o, dove i nostri risultati empirici suggeriscono che il modello è composto da una componente auto-regressiva (AR) combinata con una testa basata su diffusione per il decoding delle immagini, piuttosto che da architetture di tipo VAR. Forniamo anche una speculazione completa sull'architettura complessiva di GPT-4o. In aggiunta, conduciamo una serie di analisi per identificare e visualizzare le specifiche limitazioni di GPT-4o e gli artefatti sintetici comunemente osservati nella sua generazione di immagini. Presentiamo inoltre uno studio comparativo sulla modifica di immagini in più round tra GPT-4o e Gemini 2.0 Flash e discutiamo le implicazioni di sicurezza degli output di GPT-4o, in particolare la loro rilevabilità da parte dei modelli forensi esistenti. Speriamo che il nostro lavoro possa offrire spunti preziosi e fornire un benchmark affidabile per guidare la ricerca futura, favorire la riproducibilità e accelerare l'innovazione nel campo della generazione di immagini e oltre. I codici e i dataset utilizzati per valutare GPT-4o sono disponibili all'indirizzo https://github.com/PicoTrex/GPT-ImgEval.

English

The recent breakthroughs in OpenAI's GPT4o model have demonstrated surprisingly good capabilities in image generation and editing, resulting in significant excitement in the community. This technical report presents the first-look evaluation benchmark (named GPT-ImgEval), quantitatively and qualitatively diagnosing GPT-4o's performance across three critical dimensions: (1) generation quality, (2) editing proficiency, and (3) world knowledge-informed semantic synthesis. Across all three tasks, GPT-4o demonstrates strong performance, significantly surpassing existing methods in both image generation control and output quality, while also showcasing exceptional knowledge reasoning capabilities. Furthermore, based on the GPT-4o's generated data, we propose a classification-model-based approach to investigate the underlying architecture of GPT-4o, where our empirical results suggest the model consists of an auto-regressive (AR) combined with a diffusion-based head for image decoding, rather than the VAR-like architectures. We also provide a complete speculation on GPT-4o's overall architecture. In addition, we conduct a series of analyses to identify and visualize GPT-4o's specific limitations and the synthetic artifacts commonly observed in its image generation. We also present a comparative study of multi-round image editing between GPT-4o and Gemini 2.0 Flash, and discuss the safety implications of GPT-4o's outputs, particularly their detectability by existing image forensic models. We hope that our work can offer valuable insight and provide a reliable benchmark to guide future research, foster reproducibility, and accelerate innovation in the field of image generation and beyond. The codes and datasets used for evaluating GPT-4o can be found at https://github.com/PicoTrex/GPT-ImgEval.

GPT-ImgEval: Un Benchmark Completo per la Diagnosi di GPT4o nella Generazione di Immagini

GPT-ImgEval: A Comprehensive Benchmark for Diagnosing GPT4o in Image Generation

Abstract

Support