画像生成と理解は統一されたのか?GPT-4oの画像生成能力に関する実証的研究
Have we unified image generation and understanding yet? An empirical study of GPT-4o's image generation ability
April 9, 2025
著者: Ning Li, Jingran Zhang, Justin Cui
cs.AI
要旨
OpenAIのマルチモーダルGPT-4oは、画像生成と編集において顕著な能力を発揮しているが、世界知識に基づく意味的合成——ドメイン知識、文脈的推論、指示の遵守をシームレスに統合する能力——については未だ証明されていない。本研究では、これらの能力を3つの重要な次元にわたって体系的に評価する:(1) グローバルな指示遵守、(2) 細粒度編集精度、(3) 生成後の推論。既存のベンチマークはGPT-4oの画像生成と編集における強力な能力を強調しているが、我々の評価はGPT-4oの持続的な限界を明らかにしている:モデルは頻繁に指示を文字通り解釈し、知識制約を一貫して適用せず、条件付き推論タスクに苦戦する。これらの発見は、GPT-4oの統一的理解と生成能力に関する通説に疑問を投げかけ、動的な知識統合における重大なギャップを露呈している。本研究は、表面的な整合性を超えた、文脈を意識し推論に基づいたマルチモーダル生成を強調する、より堅牢なベンチマークとトレーニング戦略の開発を提唱する。
English
OpenAI's multimodal GPT-4o has demonstrated remarkable capabilities in image
generation and editing, yet its ability to achieve world knowledge-informed
semantic synthesis--seamlessly integrating domain knowledge, contextual
reasoning, and instruction adherence--remains unproven. In this study, we
systematically evaluate these capabilities across three critical dimensions:
(1) Global Instruction Adherence, (2) Fine-Grained Editing Precision, and (3)
Post-Generation Reasoning. While existing benchmarks highlight GPT-4o's strong
capabilities in image generation and editing, our evaluation reveals GPT-4o's
persistent limitations: the model frequently defaults to literal
interpretations of instructions, inconsistently applies knowledge constraints,
and struggles with conditional reasoning tasks. These findings challenge
prevailing assumptions about GPT-4o's unified understanding and generation
capabilities, exposing significant gaps in its dynamic knowledge integration.
Our study calls for the development of more robust benchmarks and training
strategies that go beyond surface-level alignment, emphasizing context-aware
and reasoning-grounded multimodal generation.Summary
AI-Generated Summary