Um Estudo Empírico das Capacidades de Geração de Imagens do GPT-4o

Resumo

O cenário da geração de imagens evoluiu rapidamente, desde as primeiras abordagens baseadas em GANs até os modelos de difusão e, mais recentemente, para arquiteturas generativas unificadas que buscam integrar tarefas de compreensão e geração. Avanços recentes, especialmente o GPT-4o, demonstraram a viabilidade da geração multimodal de alta fidelidade, embora seu design arquitetônico permaneça misterioso e não publicado. Isso levanta a questão de se a geração de imagens e textos já foi integrada com sucesso em um framework unificado para esses métodos. Neste trabalho, realizamos um estudo empírico sobre as capacidades de geração de imagens do GPT-4o, comparando-o com modelos líderes de código aberto e comerciais. Nossa avaliação abrange quatro categorias principais, incluindo geração de texto para imagem, imagem para imagem, imagem para 3D e imagem para X, com mais de 20 tarefas. Nossa análise destaca os pontos fortes e as limitações do GPT-4o em várias configurações, posicionando-o dentro da evolução mais ampla da modelagem generativa. Por meio desta investigação, identificamos direções promissoras para futuros modelos generativos unificados, enfatizando o papel do design arquitetônico e da escala de dados.

English

The landscape of image generation has rapidly evolved, from early GAN-based approaches to diffusion models and, most recently, to unified generative architectures that seek to bridge understanding and generation tasks. Recent advances, especially the GPT-4o, have demonstrated the feasibility of high-fidelity multimodal generation, their architectural design remains mysterious and unpublished. This prompts the question of whether image and text generation have already been successfully integrated into a unified framework for those methods. In this work, we conduct an empirical study of GPT-4o's image generation capabilities, benchmarking it against leading open-source and commercial models. Our evaluation covers four main categories, including text-to-image, image-to-image, image-to-3D, and image-to-X generation, with more than 20 tasks. Our analysis highlights the strengths and limitations of GPT-4o under various settings, and situates it within the broader evolution of generative modeling. Through this investigation, we identify promising directions for future unified generative models, emphasizing the role of architectural design and data scaling.

Um Estudo Empírico das Capacidades de Geração de Imagens do GPT-4o

An Empirical Study of GPT-4o Image Generation Capabilities

Resumo

Support