Já unificamos a geração e compreensão de imagens? Um estudo empírico sobre a capacidade de geração de imagens do GPT-4o
Have we unified image generation and understanding yet? An empirical study of GPT-4o's image generation ability
April 9, 2025
Autores: Ning Li, Jingran Zhang, Justin Cui
cs.AI
Resumo
O GPT-4o multimodal da OpenAI demonstrou capacidades notáveis na geração e edição de imagens, mas sua habilidade de realizar síntese semântica informada por conhecimento do mundo—integrando de forma contínua conhecimento de domínio, raciocínio contextual e aderência a instruções—ainda não foi comprovada. Neste estudo, avaliamos sistematicamente essas capacidades em três dimensões críticas: (1) Aderência Global a Instruções, (2) Precisão em Edições de Detalhes Finos e (3) Raciocínio Pós-Geração. Embora os benchmarks existentes destaquem as fortes capacidades do GPT-4o em geração e edição de imagens, nossa avaliação revela limitações persistentes do modelo: ele frequentemente recorre a interpretações literais das instruções, aplica de forma inconsistente restrições de conhecimento e enfrenta dificuldades em tarefas de raciocínio condicional. Esses achados desafiam suposições predominantes sobre o entendimento unificado e as capacidades de geração do GPT-4o, expondo lacunas significativas em sua integração dinâmica de conhecimento. Nosso estudo defende o desenvolvimento de benchmarks e estratégias de treinamento mais robustos, que vão além do alinhamento superficial, enfatizando a geração multimodal fundamentada em contexto e raciocínio.
English
OpenAI's multimodal GPT-4o has demonstrated remarkable capabilities in image
generation and editing, yet its ability to achieve world knowledge-informed
semantic synthesis--seamlessly integrating domain knowledge, contextual
reasoning, and instruction adherence--remains unproven. In this study, we
systematically evaluate these capabilities across three critical dimensions:
(1) Global Instruction Adherence, (2) Fine-Grained Editing Precision, and (3)
Post-Generation Reasoning. While existing benchmarks highlight GPT-4o's strong
capabilities in image generation and editing, our evaluation reveals GPT-4o's
persistent limitations: the model frequently defaults to literal
interpretations of instructions, inconsistently applies knowledge constraints,
and struggles with conditional reasoning tasks. These findings challenge
prevailing assumptions about GPT-4o's unified understanding and generation
capabilities, exposing significant gaps in its dynamic knowledge integration.
Our study calls for the development of more robust benchmarks and training
strategies that go beyond surface-level alignment, emphasizing context-aware
and reasoning-grounded multimodal generation.Summary
AI-Generated Summary