Эмпирическое исследование возможностей генерации изображений GPT-4o
An Empirical Study of GPT-4o Image Generation Capabilities
April 8, 2025
Авторы: Sixiang Chen, Jinbin Bai, Zhuoran Zhao, Tian Ye, Qingyu Shi, Donghao Zhou, Wenhao Chai, Xin Lin, Jianzong Wu, Chao Tang, Shilin Xu, Tao Zhang, Haobo Yuan, Yikang Zhou, Wei Chow, Linfeng Li, Xiangtai Li, Lei Zhu, Lu Qi
cs.AI
Аннотация
Ландшафт генерации изображений стремительно развивался: от ранних подходов на основе GAN к диффузионным моделям и, совсем недавно, к унифицированным генеративным архитектурам, которые стремятся объединить задачи понимания и генерации. Последние достижения, особенно GPT-4o, продемонстрировали возможность высококачественной мультимодальной генерации, однако их архитектурный дизайн остается загадочным и неопубликованным. Это поднимает вопрос о том, удалось ли уже успешно интегрировать генерацию изображений и текста в единую структуру для таких методов. В данной работе мы проводим эмпирическое исследование возможностей GPT-4o в генерации изображений, сравнивая его с ведущими открытыми и коммерческими моделями. Наша оценка охватывает четыре основные категории, включая генерацию "текст-в-изображение", "изображение-в-изображение", "изображение-в-3D" и "изображение-в-X", с более чем 20 задачами. Наш анализ подчеркивает сильные и слабые стороны GPT-4o в различных условиях и помещает его в контекст более широкой эволюции генеративного моделирования. В ходе этого исследования мы определяем перспективные направления для будущих унифицированных генеративных моделей, акцентируя внимание на роли архитектурного дизайна и масштабирования данных.
English
The landscape of image generation has rapidly evolved, from early GAN-based
approaches to diffusion models and, most recently, to unified generative
architectures that seek to bridge understanding and generation tasks. Recent
advances, especially the GPT-4o, have demonstrated the feasibility of
high-fidelity multimodal generation, their architectural design remains
mysterious and unpublished. This prompts the question of whether image and text
generation have already been successfully integrated into a unified framework
for those methods. In this work, we conduct an empirical study of GPT-4o's
image generation capabilities, benchmarking it against leading open-source and
commercial models. Our evaluation covers four main categories, including
text-to-image, image-to-image, image-to-3D, and image-to-X generation, with
more than 20 tasks. Our analysis highlights the strengths and limitations of
GPT-4o under various settings, and situates it within the broader evolution of
generative modeling. Through this investigation, we identify promising
directions for future unified generative models, emphasizing the role of
architectural design and data scaling.Summary
AI-Generated Summary