ChatPaper.aiChatPaper

GPT-4o 이미지 생성 능력에 대한 실증적 연구

An Empirical Study of GPT-4o Image Generation Capabilities

April 8, 2025
저자: Sixiang Chen, Jinbin Bai, Zhuoran Zhao, Tian Ye, Qingyu Shi, Donghao Zhou, Wenhao Chai, Xin Lin, Jianzong Wu, Chao Tang, Shilin Xu, Tao Zhang, Haobo Yuan, Yikang Zhou, Wei Chow, Linfeng Li, Xiangtai Li, Lei Zhu, Lu Qi
cs.AI

초록

이미지 생성 분야는 초기 GAN 기반 접근법에서 확산 모델로, 그리고 최근에는 이해와 생성 작업을 통합하려는 통합 생성 아키텍처로 빠르게 진화해 왔습니다. 특히 GPT-4o와 같은 최근의 발전은 고품질 다중모달 생성의 가능성을 입증했지만, 그 아키텍처 설계는 여전히 미스터리로 남아 있고 공개되지 않았습니다. 이는 이미지와 텍스트 생성이 이미 이러한 방법들을 위한 통합 프레임워크로 성공적으로 통합되었는지에 대한 질문을 제기합니다. 본 연구에서는 GPT-4o의 이미지 생성 능력을 실증적으로 연구하고, 이를 선도적인 오픈소스 및 상용 모델들과 비교 평가합니다. 우리의 평가는 텍스트-이미지, 이미지-이미지, 이미지-3D, 그리고 이미지-X 생성 등 4가지 주요 범주와 20개 이상의 작업을 포함합니다. 분석을 통해 다양한 설정에서 GPT-4o의 강점과 한계를 밝히고, 이를 생성 모델링의 더 넓은 진화 과정 속에 위치시킵니다. 이 연구를 통해 우리는 아키텍처 설계와 데이터 스케일링의 역할을 강조하며, 미래의 통합 생성 모델을 위한 유망한 방향성을 제시합니다.
English
The landscape of image generation has rapidly evolved, from early GAN-based approaches to diffusion models and, most recently, to unified generative architectures that seek to bridge understanding and generation tasks. Recent advances, especially the GPT-4o, have demonstrated the feasibility of high-fidelity multimodal generation, their architectural design remains mysterious and unpublished. This prompts the question of whether image and text generation have already been successfully integrated into a unified framework for those methods. In this work, we conduct an empirical study of GPT-4o's image generation capabilities, benchmarking it against leading open-source and commercial models. Our evaluation covers four main categories, including text-to-image, image-to-image, image-to-3D, and image-to-X generation, with more than 20 tasks. Our analysis highlights the strengths and limitations of GPT-4o under various settings, and situates it within the broader evolution of generative modeling. Through this investigation, we identify promising directions for future unified generative models, emphasizing the role of architectural design and data scaling.

Summary

AI-Generated Summary

PDF612April 9, 2025