¿Hemos unificado la generación y comprensión de imágenes? Un estudio empírico sobre la capacidad de generación de imágenes de GPT-4o
Have we unified image generation and understanding yet? An empirical study of GPT-4o's image generation ability
April 9, 2025
Autores: Ning Li, Jingran Zhang, Justin Cui
cs.AI
Resumen
El modelo multimodal GPT-4o de OpenAI ha demostrado capacidades notables en la generación y edición de imágenes, pero su habilidad para lograr una síntesis semántica informada por el conocimiento del mundo—integrando de manera fluida el conocimiento del dominio, el razonamiento contextual y la adherencia a instrucciones—aún no ha sido probada. En este estudio, evaluamos sistemáticamente estas capacidades en tres dimensiones críticas: (1) Adherencia Global a Instrucciones, (2) Precisión en Ediciones de Detalle, y (3) Razonamiento Post-Generación. Aunque los benchmarks existentes destacan las sólidas capacidades de GPT-4o en la generación y edición de imágenes, nuestra evaluación revela limitaciones persistentes del modelo: con frecuencia recurre a interpretaciones literales de las instrucciones, aplica de manera inconsistente las restricciones de conocimiento y tiene dificultades con tareas de razonamiento condicional. Estos hallazgos cuestionan las suposiciones predominantes sobre las capacidades unificadas de comprensión y generación de GPT-4o, exponiendo brechas significativas en su integración dinámica de conocimiento. Nuestro estudio aboga por el desarrollo de benchmarks y estrategias de entrenamiento más robustos que vayan más allá de la alineación superficial, enfatizando la generación multimodal basada en el contexto y el razonamiento.
English
OpenAI's multimodal GPT-4o has demonstrated remarkable capabilities in image
generation and editing, yet its ability to achieve world knowledge-informed
semantic synthesis--seamlessly integrating domain knowledge, contextual
reasoning, and instruction adherence--remains unproven. In this study, we
systematically evaluate these capabilities across three critical dimensions:
(1) Global Instruction Adherence, (2) Fine-Grained Editing Precision, and (3)
Post-Generation Reasoning. While existing benchmarks highlight GPT-4o's strong
capabilities in image generation and editing, our evaluation reveals GPT-4o's
persistent limitations: the model frequently defaults to literal
interpretations of instructions, inconsistently applies knowledge constraints,
and struggles with conditional reasoning tasks. These findings challenge
prevailing assumptions about GPT-4o's unified understanding and generation
capabilities, exposing significant gaps in its dynamic knowledge integration.
Our study calls for the development of more robust benchmarks and training
strategies that go beyond surface-level alignment, emphasizing context-aware
and reasoning-grounded multimodal generation.Summary
AI-Generated Summary