GPT-ImgEval: Комплексный бенчмарк для диагностики GPT4o в генерации изображений
GPT-ImgEval: A Comprehensive Benchmark for Diagnosing GPT4o in Image Generation
April 3, 2025
Авторы: Zhiyuan Yan, Junyan Ye, Weijia Li, Zilong Huang, Shenghai Yuan, Xiangyang He, Kaiqing Lin, Jun He, Conghui He, Li Yuan
cs.AI
Аннотация
Недавние прорывы в модели GPT4o от OpenAI продемонстрировали удивительно высокие способности в генерации и редактировании изображений, вызвав значительный интерес в сообществе. В данном техническом отчете представлен первый оценочный бенчмарк (названный GPT-ImgEval), который количественно и качественно анализирует производительность GPT-4o по трем ключевым направлениям: (1) качество генерации, (2) мастерство редактирования и (3) семантический синтез, основанный на знаниях о мире. Во всех трех задачах GPT-4o демонстрирует высокую производительность, значительно превосходя существующие методы как в управлении генерацией изображений, так и в качестве выходных данных, а также проявляя исключительные способности к логическому рассуждению. Кроме того, на основе данных, сгенерированных GPT-4o, мы предлагаем подход, основанный на классификационной модели, для исследования внутренней архитектуры GPT-4o. Наши эмпирические результаты позволяют предположить, что модель состоит из авторегрессивного (AR) компонента в сочетании с диффузионной головкой для декодирования изображений, а не из архитектур, подобных VAR. Мы также предлагаем полное предположение о структуре GPT-4o в целом. Дополнительно мы проводим серию анализов для выявления и визуализации конкретных ограничений GPT-4o и синтетических артефактов, часто наблюдаемых в его генерации изображений. Мы также представляем сравнительное исследование многократного редактирования изображений между GPT-4o и Gemini 2.0 Flash и обсуждаем вопросы безопасности выходных данных GPT-4o, в частности их обнаруживаемость существующими моделями криминалистического анализа изображений. Мы надеемся, что наша работа предоставит ценные инсайты и надежный бенчмарк для руководства будущими исследованиями, способствования воспроизводимости и ускорения инноваций в области генерации изображений и за ее пределами. Коды и наборы данных, использованные для оценки GPT-4o, доступны по адресу https://github.com/PicoTrex/GPT-ImgEval.
English
The recent breakthroughs in OpenAI's GPT4o model have demonstrated
surprisingly good capabilities in image generation and editing, resulting in
significant excitement in the community. This technical report presents the
first-look evaluation benchmark (named GPT-ImgEval), quantitatively and
qualitatively diagnosing GPT-4o's performance across three critical dimensions:
(1) generation quality, (2) editing proficiency, and (3) world
knowledge-informed semantic synthesis. Across all three tasks, GPT-4o
demonstrates strong performance, significantly surpassing existing methods in
both image generation control and output quality, while also showcasing
exceptional knowledge reasoning capabilities. Furthermore, based on the
GPT-4o's generated data, we propose a classification-model-based approach to
investigate the underlying architecture of GPT-4o, where our empirical results
suggest the model consists of an auto-regressive (AR) combined with a
diffusion-based head for image decoding, rather than the VAR-like
architectures. We also provide a complete speculation on GPT-4o's overall
architecture. In addition, we conduct a series of analyses to identify and
visualize GPT-4o's specific limitations and the synthetic artifacts commonly
observed in its image generation. We also present a comparative study of
multi-round image editing between GPT-4o and Gemini 2.0 Flash, and discuss the
safety implications of GPT-4o's outputs, particularly their detectability by
existing image forensic models. We hope that our work can offer valuable
insight and provide a reliable benchmark to guide future research, foster
reproducibility, and accelerate innovation in the field of image generation and
beyond. The codes and datasets used for evaluating GPT-4o can be found at
https://github.com/PicoTrex/GPT-ImgEval.Summary
AI-Generated Summary