Haben wir Bildgenerierung und -verständnis bereits vereinheitlicht? Eine empirische Studie zur Bildgenerierungsfähigkeit von GPT-4o

Zusammenfassung

OpenAIs multimodales GPT-4o hat bemerkenswerte Fähigkeiten in der Bildgenerierung und -bearbeitung gezeigt, doch seine Fähigkeit zur weltwissensbasierten semantischen Synthese – der nahtlosen Integration von Domänenwissen, kontextuellem Denken und der Befolgung von Anweisungen – bleibt unbestätigt. In dieser Studie bewerten wir diese Fähigkeiten systematisch in drei kritischen Dimensionen: (1) Globale Anweisungsbefolgung, (2) Präzision bei fein granulierter Bearbeitung und (3) Post-Generierungs-Denken. Während bestehende Benchmarks die starken Fähigkeiten von GPT-4o in der Bildgenerierung und -bearbeitung hervorheben, zeigt unsere Bewertung anhaltende Grenzen des Modells auf: Es greift häufig auf wörtliche Interpretationen von Anweisungen zurück, wendet Wissensbeschränkungen inkonsistent an und hat Schwierigkeiten mit bedingten Denkaufgaben. Diese Ergebnisse stellen vorherrschende Annahmen über das einheitliche Verständnis und die Generierungsfähigkeiten von GPT-4o in Frage und legen erhebliche Lücken in seiner dynamischen Wissensintegration offen. Unsere Studie fordert die Entwicklung robusterer Benchmarks und Trainingsstrategien, die über eine oberflächliche Ausrichtung hinausgehen und eine kontextbewusste und denkbasierte multimodale Generierung betonen.

English

OpenAI's multimodal GPT-4o has demonstrated remarkable capabilities in image generation and editing, yet its ability to achieve world knowledge-informed semantic synthesis--seamlessly integrating domain knowledge, contextual reasoning, and instruction adherence--remains unproven. In this study, we systematically evaluate these capabilities across three critical dimensions: (1) Global Instruction Adherence, (2) Fine-Grained Editing Precision, and (3) Post-Generation Reasoning. While existing benchmarks highlight GPT-4o's strong capabilities in image generation and editing, our evaluation reveals GPT-4o's persistent limitations: the model frequently defaults to literal interpretations of instructions, inconsistently applies knowledge constraints, and struggles with conditional reasoning tasks. These findings challenge prevailing assumptions about GPT-4o's unified understanding and generation capabilities, exposing significant gaps in its dynamic knowledge integration. Our study calls for the development of more robust benchmarks and training strategies that go beyond surface-level alignment, emphasizing context-aware and reasoning-grounded multimodal generation.