Avons-nous déjà unifié la génération et la compréhension d'images ? Une étude empirique des capacités de génération d'images de GPT-4o
Have we unified image generation and understanding yet? An empirical study of GPT-4o's image generation ability
April 9, 2025
Auteurs: Ning Li, Jingran Zhang, Justin Cui
cs.AI
Résumé
Le GPT-4o multimodal d'OpenAI a démontré des capacités remarquables en génération et édition d'images, mais sa capacité à réaliser une synthèse sémantique informée par la connaissance du monde—intégrant de manière fluide les connaissances du domaine, le raisonnement contextuel et le respect des instructions—reste à prouver. Dans cette étude, nous évaluons systématiquement ces capacités selon trois dimensions critiques : (1) le respect global des instructions, (2) la précision des modifications fines, et (3) le raisonnement post-génération. Bien que les benchmarks existants mettent en avant les fortes capacités de GPT-4o en génération et édition d'images, notre évaluation révèle des limitations persistantes du modèle : il interprète souvent les instructions de manière littérale, applique de manière incohérente les contraintes de connaissances, et éprouve des difficultés avec les tâches de raisonnement conditionnel. Ces résultats remettent en question les hypothèses dominantes concernant la compréhension unifiée et les capacités de génération de GPT-4o, exposant des lacunes significatives dans son intégration dynamique des connaissances. Notre étude plaide pour le développement de benchmarks et de stratégies d'entraînement plus robustes, allant au-delà de l'alignement superficiel et mettant l'accent sur une génération multimodale ancrée dans le contexte et le raisonnement.
English
OpenAI's multimodal GPT-4o has demonstrated remarkable capabilities in image
generation and editing, yet its ability to achieve world knowledge-informed
semantic synthesis--seamlessly integrating domain knowledge, contextual
reasoning, and instruction adherence--remains unproven. In this study, we
systematically evaluate these capabilities across three critical dimensions:
(1) Global Instruction Adherence, (2) Fine-Grained Editing Precision, and (3)
Post-Generation Reasoning. While existing benchmarks highlight GPT-4o's strong
capabilities in image generation and editing, our evaluation reveals GPT-4o's
persistent limitations: the model frequently defaults to literal
interpretations of instructions, inconsistently applies knowledge constraints,
and struggles with conditional reasoning tasks. These findings challenge
prevailing assumptions about GPT-4o's unified understanding and generation
capabilities, exposing significant gaps in its dynamic knowledge integration.
Our study calls for the development of more robust benchmarks and training
strategies that go beyond surface-level alignment, emphasizing context-aware
and reasoning-grounded multimodal generation.Summary
AI-Generated Summary