Достигли ли мы единства в генерации и понимании изображений? Эмпирическое исследование способности GPT-4o к генерации изображений
Have we unified image generation and understanding yet? An empirical study of GPT-4o's image generation ability
April 9, 2025
Авторы: Ning Li, Jingran Zhang, Justin Cui
cs.AI
Аннотация
Мультимодальная модель GPT-4o от OpenAI продемонстрировала впечатляющие возможности в генерации и редактировании изображений, однако её способность к семантическому синтезу, основанному на знаниях о мире — бесшовному объединению предметных знаний, контекстного рассуждения и следования инструкциям — остаётся недоказанной. В данном исследовании мы систематически оцениваем эти способности по трём ключевым направлениям: (1) Глобальное следование инструкциям, (2) Точность детального редактирования и (3) Постгенеративное рассуждение. Хотя существующие тесты подчеркивают сильные стороны GPT-4o в генерации и редактировании изображений, наша оценка выявляет устойчивые ограничения модели: она часто прибегает к буквальной интерпретации инструкций, непостоянно применяет ограничения, основанные на знаниях, и испытывает трудности с задачами условного рассуждения. Эти результаты ставят под сомнение преобладающие представления о едином понимании и генеративных возможностях GPT-4o, выявляя значительные пробелы в её динамической интеграции знаний. Наше исследование призывает к разработке более надежных тестов и стратегий обучения, выходящих за рамки поверхностного соответствия, с акцентом на контекстно-ориентированную и обоснованную рассуждениями мультимодальную генерацию.
English
OpenAI's multimodal GPT-4o has demonstrated remarkable capabilities in image
generation and editing, yet its ability to achieve world knowledge-informed
semantic synthesis--seamlessly integrating domain knowledge, contextual
reasoning, and instruction adherence--remains unproven. In this study, we
systematically evaluate these capabilities across three critical dimensions:
(1) Global Instruction Adherence, (2) Fine-Grained Editing Precision, and (3)
Post-Generation Reasoning. While existing benchmarks highlight GPT-4o's strong
capabilities in image generation and editing, our evaluation reveals GPT-4o's
persistent limitations: the model frequently defaults to literal
interpretations of instructions, inconsistently applies knowledge constraints,
and struggles with conditional reasoning tasks. These findings challenge
prevailing assumptions about GPT-4o's unified understanding and generation
capabilities, exposing significant gaps in its dynamic knowledge integration.
Our study calls for the development of more robust benchmarks and training
strategies that go beyond surface-level alignment, emphasizing context-aware
and reasoning-grounded multimodal generation.Summary
AI-Generated Summary