ChatPaper.aiChatPaper

Hebben we beeldgeneratie en -begrip al verenigd? Een empirisch onderzoek naar de beeldgeneratiecapaciteit van GPT-4o

Have we unified image generation and understanding yet? An empirical study of GPT-4o's image generation ability

April 9, 2025
Auteurs: Ning Li, Jingran Zhang, Justin Cui
cs.AI

Samenvatting

OpenAI's multimodale GPT-4o heeft opmerkelijke capaciteiten getoond op het gebied van beeldgeneratie en -bewerking, maar het vermogen om wereldkennis-gestuurde semantische synthese te bereiken—waarbij domeinkennis, contextueel redeneren en instructievolging naadloos worden geïntegreerd—blijft onbewezen. In deze studie evalueren we deze capaciteiten systematisch op drie kritieke dimensies: (1) Globale Instructievolging, (2) Fijnmazige Bewerkingsprecisie, en (3) Post-Generatie Redenering. Hoewel bestaande benchmarks de sterke capaciteiten van GPT-4o in beeldgeneratie en -bewerking benadrukken, onthult onze evaluatie hardnekkige beperkingen van GPT-4o: het model valt vaak terug op letterlijke interpretaties van instructies, past kennisbeperkingen inconsistent toe en worstelt met conditionele redeneertaken. Deze bevindingen dagen heersende aannames uit over het verenigde begrip en de generatiecapaciteiten van GPT-4o, en leggen significante tekortkomingen bloot in de dynamische kennisintegratie. Onze studie pleit voor de ontwikkeling van robuustere benchmarks en trainingsstrategieën die verder gaan dan oppervlakkige afstemming, en benadrukt contextbewuste en redeneringsgestuurde multimodale generatie.
English
OpenAI's multimodal GPT-4o has demonstrated remarkable capabilities in image generation and editing, yet its ability to achieve world knowledge-informed semantic synthesis--seamlessly integrating domain knowledge, contextual reasoning, and instruction adherence--remains unproven. In this study, we systematically evaluate these capabilities across three critical dimensions: (1) Global Instruction Adherence, (2) Fine-Grained Editing Precision, and (3) Post-Generation Reasoning. While existing benchmarks highlight GPT-4o's strong capabilities in image generation and editing, our evaluation reveals GPT-4o's persistent limitations: the model frequently defaults to literal interpretations of instructions, inconsistently applies knowledge constraints, and struggles with conditional reasoning tasks. These findings challenge prevailing assumptions about GPT-4o's unified understanding and generation capabilities, exposing significant gaps in its dynamic knowledge integration. Our study calls for the development of more robust benchmarks and training strategies that go beyond surface-level alignment, emphasizing context-aware and reasoning-grounded multimodal generation.

Summary

AI-Generated Summary

PDF492April 15, 2025