Avons-nous déjà unifié la génération et la compréhension d'images ? Une étude empirique des capacités de génération d'images de GPT-4o

Résumé

Le GPT-4o multimodal d'OpenAI a démontré des capacités remarquables en génération et édition d'images, mais sa capacité à réaliser une synthèse sémantique informée par la connaissance du monde—intégrant de manière fluide les connaissances du domaine, le raisonnement contextuel et le respect des instructions—reste à prouver. Dans cette étude, nous évaluons systématiquement ces capacités selon trois dimensions critiques : (1) le respect global des instructions, (2) la précision des modifications fines, et (3) le raisonnement post-génération. Bien que les benchmarks existants mettent en avant les fortes capacités de GPT-4o en génération et édition d'images, notre évaluation révèle des limitations persistantes du modèle : il interprète souvent les instructions de manière littérale, applique de manière incohérente les contraintes de connaissances, et éprouve des difficultés avec les tâches de raisonnement conditionnel. Ces résultats remettent en question les hypothèses dominantes concernant la compréhension unifiée et les capacités de génération de GPT-4o, exposant des lacunes significatives dans son intégration dynamique des connaissances. Notre étude plaide pour le développement de benchmarks et de stratégies d'entraînement plus robustes, allant au-delà de l'alignement superficiel et mettant l'accent sur une génération multimodale ancrée dans le contexte et le raisonnement.

English

OpenAI's multimodal GPT-4o has demonstrated remarkable capabilities in image generation and editing, yet its ability to achieve world knowledge-informed semantic synthesis--seamlessly integrating domain knowledge, contextual reasoning, and instruction adherence--remains unproven. In this study, we systematically evaluate these capabilities across three critical dimensions: (1) Global Instruction Adherence, (2) Fine-Grained Editing Precision, and (3) Post-Generation Reasoning. While existing benchmarks highlight GPT-4o's strong capabilities in image generation and editing, our evaluation reveals GPT-4o's persistent limitations: the model frequently defaults to literal interpretations of instructions, inconsistently applies knowledge constraints, and struggles with conditional reasoning tasks. These findings challenge prevailing assumptions about GPT-4o's unified understanding and generation capabilities, exposing significant gaps in its dynamic knowledge integration. Our study calls for the development of more robust benchmarks and training strategies that go beyond surface-level alignment, emphasizing context-aware and reasoning-grounded multimodal generation.