Haben wir Bildgenerierung und -verständnis bereits vereinheitlicht? Eine empirische Studie zur Bildgenerierungsfähigkeit von GPT-4o
Have we unified image generation and understanding yet? An empirical study of GPT-4o's image generation ability
April 9, 2025
Autoren: Ning Li, Jingran Zhang, Justin Cui
cs.AI
Zusammenfassung
OpenAIs multimodales GPT-4o hat bemerkenswerte Fähigkeiten in der Bildgenerierung und -bearbeitung gezeigt, doch seine Fähigkeit zur weltwissensbasierten semantischen Synthese – der nahtlosen Integration von Domänenwissen, kontextuellem Denken und der Befolgung von Anweisungen – bleibt unbestätigt. In dieser Studie bewerten wir diese Fähigkeiten systematisch in drei kritischen Dimensionen: (1) Globale Anweisungsbefolgung, (2) Präzision bei fein granulierter Bearbeitung und (3) Post-Generierungs-Denken. Während bestehende Benchmarks die starken Fähigkeiten von GPT-4o in der Bildgenerierung und -bearbeitung hervorheben, zeigt unsere Bewertung anhaltende Grenzen des Modells auf: Es greift häufig auf wörtliche Interpretationen von Anweisungen zurück, wendet Wissensbeschränkungen inkonsistent an und hat Schwierigkeiten mit bedingten Denkaufgaben. Diese Ergebnisse stellen vorherrschende Annahmen über das einheitliche Verständnis und die Generierungsfähigkeiten von GPT-4o in Frage und legen erhebliche Lücken in seiner dynamischen Wissensintegration offen. Unsere Studie fordert die Entwicklung robusterer Benchmarks und Trainingsstrategien, die über eine oberflächliche Ausrichtung hinausgehen und eine kontextbewusste und denkbasierte multimodale Generierung betonen.
English
OpenAI's multimodal GPT-4o has demonstrated remarkable capabilities in image
generation and editing, yet its ability to achieve world knowledge-informed
semantic synthesis--seamlessly integrating domain knowledge, contextual
reasoning, and instruction adherence--remains unproven. In this study, we
systematically evaluate these capabilities across three critical dimensions:
(1) Global Instruction Adherence, (2) Fine-Grained Editing Precision, and (3)
Post-Generation Reasoning. While existing benchmarks highlight GPT-4o's strong
capabilities in image generation and editing, our evaluation reveals GPT-4o's
persistent limitations: the model frequently defaults to literal
interpretations of instructions, inconsistently applies knowledge constraints,
and struggles with conditional reasoning tasks. These findings challenge
prevailing assumptions about GPT-4o's unified understanding and generation
capabilities, exposing significant gaps in its dynamic knowledge integration.
Our study calls for the development of more robust benchmarks and training
strategies that go beyond surface-level alignment, emphasizing context-aware
and reasoning-grounded multimodal generation.Summary
AI-Generated Summary