¿Hemos unificado la generación y comprensión de imágenes? Un estudio empírico sobre la capacidad de generación de imágenes de GPT-4o

Resumen

El modelo multimodal GPT-4o de OpenAI ha demostrado capacidades notables en la generación y edición de imágenes, pero su habilidad para lograr una síntesis semántica informada por el conocimiento del mundo—integrando de manera fluida el conocimiento del dominio, el razonamiento contextual y la adherencia a instrucciones—aún no ha sido probada. En este estudio, evaluamos sistemáticamente estas capacidades en tres dimensiones críticas: (1) Adherencia Global a Instrucciones, (2) Precisión en Ediciones de Detalle, y (3) Razonamiento Post-Generación. Aunque los benchmarks existentes destacan las sólidas capacidades de GPT-4o en la generación y edición de imágenes, nuestra evaluación revela limitaciones persistentes del modelo: con frecuencia recurre a interpretaciones literales de las instrucciones, aplica de manera inconsistente las restricciones de conocimiento y tiene dificultades con tareas de razonamiento condicional. Estos hallazgos cuestionan las suposiciones predominantes sobre las capacidades unificadas de comprensión y generación de GPT-4o, exponiendo brechas significativas en su integración dinámica de conocimiento. Nuestro estudio aboga por el desarrollo de benchmarks y estrategias de entrenamiento más robustos que vayan más allá de la alineación superficial, enfatizando la generación multimodal basada en el contexto y el razonamiento.

English

OpenAI's multimodal GPT-4o has demonstrated remarkable capabilities in image generation and editing, yet its ability to achieve world knowledge-informed semantic synthesis--seamlessly integrating domain knowledge, contextual reasoning, and instruction adherence--remains unproven. In this study, we systematically evaluate these capabilities across three critical dimensions: (1) Global Instruction Adherence, (2) Fine-Grained Editing Precision, and (3) Post-Generation Reasoning. While existing benchmarks highlight GPT-4o's strong capabilities in image generation and editing, our evaluation reveals GPT-4o's persistent limitations: the model frequently defaults to literal interpretations of instructions, inconsistently applies knowledge constraints, and struggles with conditional reasoning tasks. These findings challenge prevailing assumptions about GPT-4o's unified understanding and generation capabilities, exposing significant gaps in its dynamic knowledge integration. Our study calls for the development of more robust benchmarks and training strategies that go beyond surface-level alignment, emphasizing context-aware and reasoning-grounded multimodal generation.