ChatPaper.aiChatPaper

Un Estudio Empírico de las Capacidades de Generación de Imágenes de GPT-4o

An Empirical Study of GPT-4o Image Generation Capabilities

April 8, 2025
Autores: Sixiang Chen, Jinbin Bai, Zhuoran Zhao, Tian Ye, Qingyu Shi, Donghao Zhou, Wenhao Chai, Xin Lin, Jianzong Wu, Chao Tang, Shilin Xu, Tao Zhang, Haobo Yuan, Yikang Zhou, Wei Chow, Linfeng Li, Xiangtai Li, Lei Zhu, Lu Qi
cs.AI

Resumen

El panorama de la generación de imágenes ha evolucionado rápidamente, desde los primeros enfoques basados en GAN hasta los modelos de difusión y, más recientemente, hacia arquitecturas generativas unificadas que buscan conectar tareas de comprensión y generación. Los avances recientes, especialmente el GPT-4o, han demostrado la viabilidad de la generación multimodal de alta fidelidad, aunque su diseño arquitectónico sigue siendo misterioso y no se ha publicado. Esto plantea la pregunta de si la generación de imágenes y texto ya se ha integrado con éxito en un marco unificado para estos métodos. En este trabajo, realizamos un estudio empírico de las capacidades de generación de imágenes de GPT-4o, comparándolo con los principales modelos de código abierto y comerciales. Nuestra evaluación cubre cuatro categorías principales, incluyendo texto a imagen, imagen a imagen, imagen a 3D e imagen a X, con más de 20 tareas. Nuestro análisis destaca las fortalezas y limitaciones de GPT-4o en diversos entornos, y lo sitúa dentro de la evolución más amplia del modelado generativo. A través de esta investigación, identificamos direcciones prometedoras para futuros modelos generativos unificados, enfatizando el papel del diseño arquitectónico y la escalabilidad de datos.
English
The landscape of image generation has rapidly evolved, from early GAN-based approaches to diffusion models and, most recently, to unified generative architectures that seek to bridge understanding and generation tasks. Recent advances, especially the GPT-4o, have demonstrated the feasibility of high-fidelity multimodal generation, their architectural design remains mysterious and unpublished. This prompts the question of whether image and text generation have already been successfully integrated into a unified framework for those methods. In this work, we conduct an empirical study of GPT-4o's image generation capabilities, benchmarking it against leading open-source and commercial models. Our evaluation covers four main categories, including text-to-image, image-to-image, image-to-3D, and image-to-X generation, with more than 20 tasks. Our analysis highlights the strengths and limitations of GPT-4o under various settings, and situates it within the broader evolution of generative modeling. Through this investigation, we identify promising directions for future unified generative models, emphasizing the role of architectural design and data scaling.

Summary

AI-Generated Summary

PDF612April 9, 2025