Une étude empirique des capacités de génération d'images de GPT-4o
An Empirical Study of GPT-4o Image Generation Capabilities
April 8, 2025
Auteurs: Sixiang Chen, Jinbin Bai, Zhuoran Zhao, Tian Ye, Qingyu Shi, Donghao Zhou, Wenhao Chai, Xin Lin, Jianzong Wu, Chao Tang, Shilin Xu, Tao Zhang, Haobo Yuan, Yikang Zhou, Wei Chow, Linfeng Li, Xiangtai Li, Lei Zhu, Lu Qi
cs.AI
Résumé
Le paysage de la génération d'images a rapidement évolué, des premières approches basées sur les GAN aux modèles de diffusion, et plus récemment, vers des architectures génératives unifiées cherchant à relier les tâches de compréhension et de génération. Les avancées récentes, notamment le GPT-4o, ont démontré la faisabilité d'une génération multimodale de haute fidélité, bien que leur conception architecturale reste mystérieuse et non publiée. Cela soulève la question de savoir si la génération d'images et de texte a déjà été intégrée avec succès dans un cadre unifié pour ces méthodes. Dans ce travail, nous menons une étude empirique des capacités de génération d'images du GPT-4o, en le comparant aux modèles open-source et commerciaux leaders. Notre évaluation couvre quatre catégories principales, incluant la génération texte-à-image, image-à-image, image-à-3D et image-à-X, avec plus de 20 tâches. Notre analyse met en lumière les forces et les limites du GPT-4o dans divers contextes, et le situe dans l'évolution plus large de la modélisation générative. À travers cette investigation, nous identifions des directions prometteuses pour les futurs modèles génératifs unifiés, en mettant l'accent sur le rôle de la conception architecturale et de la mise à l'échelle des données.
English
The landscape of image generation has rapidly evolved, from early GAN-based
approaches to diffusion models and, most recently, to unified generative
architectures that seek to bridge understanding and generation tasks. Recent
advances, especially the GPT-4o, have demonstrated the feasibility of
high-fidelity multimodal generation, their architectural design remains
mysterious and unpublished. This prompts the question of whether image and text
generation have already been successfully integrated into a unified framework
for those methods. In this work, we conduct an empirical study of GPT-4o's
image generation capabilities, benchmarking it against leading open-source and
commercial models. Our evaluation covers four main categories, including
text-to-image, image-to-image, image-to-3D, and image-to-X generation, with
more than 20 tasks. Our analysis highlights the strengths and limitations of
GPT-4o under various settings, and situates it within the broader evolution of
generative modeling. Through this investigation, we identify promising
directions for future unified generative models, emphasizing the role of
architectural design and data scaling.Summary
AI-Generated Summary