Достигли ли мы единства в генерации и понимании изображений? Эмпирическое исследование способности GPT-4o к генерации изображений

Аннотация

Мультимодальная модель GPT-4o от OpenAI продемонстрировала впечатляющие возможности в генерации и редактировании изображений, однако её способность к семантическому синтезу, основанному на знаниях о мире — бесшовному объединению предметных знаний, контекстного рассуждения и следования инструкциям — остаётся недоказанной. В данном исследовании мы систематически оцениваем эти способности по трём ключевым направлениям: (1) Глобальное следование инструкциям, (2) Точность детального редактирования и (3) Постгенеративное рассуждение. Хотя существующие тесты подчеркивают сильные стороны GPT-4o в генерации и редактировании изображений, наша оценка выявляет устойчивые ограничения модели: она часто прибегает к буквальной интерпретации инструкций, непостоянно применяет ограничения, основанные на знаниях, и испытывает трудности с задачами условного рассуждения. Эти результаты ставят под сомнение преобладающие представления о едином понимании и генеративных возможностях GPT-4o, выявляя значительные пробелы в её динамической интеграции знаний. Наше исследование призывает к разработке более надежных тестов и стратегий обучения, выходящих за рамки поверхностного соответствия, с акцентом на контекстно-ориентированную и обоснованную рассуждениями мультимодальную генерацию.

English

OpenAI's multimodal GPT-4o has demonstrated remarkable capabilities in image generation and editing, yet its ability to achieve world knowledge-informed semantic synthesis--seamlessly integrating domain knowledge, contextual reasoning, and instruction adherence--remains unproven. In this study, we systematically evaluate these capabilities across three critical dimensions: (1) Global Instruction Adherence, (2) Fine-Grained Editing Precision, and (3) Post-Generation Reasoning. While existing benchmarks highlight GPT-4o's strong capabilities in image generation and editing, our evaluation reveals GPT-4o's persistent limitations: the model frequently defaults to literal interpretations of instructions, inconsistently applies knowledge constraints, and struggles with conditional reasoning tasks. These findings challenge prevailing assumptions about GPT-4o's unified understanding and generation capabilities, exposing significant gaps in its dynamic knowledge integration. Our study calls for the development of more robust benchmarks and training strategies that go beyond surface-level alignment, emphasizing context-aware and reasoning-grounded multimodal generation.