Uno Studio Empirico sulle Capacità di Generazione di Immagini di GPT-4o
An Empirical Study of GPT-4o Image Generation Capabilities
April 8, 2025
Autori: Sixiang Chen, Jinbin Bai, Zhuoran Zhao, Tian Ye, Qingyu Shi, Donghao Zhou, Wenhao Chai, Xin Lin, Jianzong Wu, Chao Tang, Shilin Xu, Tao Zhang, Haobo Yuan, Yikang Zhou, Wei Chow, Linfeng Li, Xiangtai Li, Lei Zhu, Lu Qi
cs.AI
Abstract
Il panorama della generazione di immagini si è rapidamente evoluto, passando dai primi approcci basati su GAN ai modelli di diffusione e, più recentemente, a architetture generative unificate che cercano di colmare il divario tra compiti di comprensione e generazione. I recenti progressi, in particolare il GPT-4o, hanno dimostrato la fattibilità della generazione multimodale ad alta fedeltà, sebbene il loro design architetturale rimanga misterioso e non pubblicato. Ciò solleva la questione se la generazione di immagini e testo siano già state integrate con successo in un framework unificato per tali metodi. In questo lavoro, conduciamo uno studio empirico sulle capacità di generazione di immagini di GPT-4o, confrontandolo con i principali modelli open-source e commerciali. La nostra valutazione copre quattro categorie principali, tra cui generazione da testo a immagine, da immagine a immagine, da immagine a 3D e da immagine a X, con più di 20 task. La nostra analisi evidenzia i punti di forza e le limitazioni di GPT-4o in varie configurazioni e lo colloca all'interno della più ampia evoluzione della modellazione generativa. Attraverso questa indagine, identifichiamo direzioni promettenti per i futuri modelli generativi unificati, enfatizzando il ruolo del design architetturale e del ridimensionamento dei dati.
English
The landscape of image generation has rapidly evolved, from early GAN-based
approaches to diffusion models and, most recently, to unified generative
architectures that seek to bridge understanding and generation tasks. Recent
advances, especially the GPT-4o, have demonstrated the feasibility of
high-fidelity multimodal generation, their architectural design remains
mysterious and unpublished. This prompts the question of whether image and text
generation have already been successfully integrated into a unified framework
for those methods. In this work, we conduct an empirical study of GPT-4o's
image generation capabilities, benchmarking it against leading open-source and
commercial models. Our evaluation covers four main categories, including
text-to-image, image-to-image, image-to-3D, and image-to-X generation, with
more than 20 tasks. Our analysis highlights the strengths and limitations of
GPT-4o under various settings, and situates it within the broader evolution of
generative modeling. Through this investigation, we identify promising
directions for future unified generative models, emphasizing the role of
architectural design and data scaling.Summary
AI-Generated Summary