Eine empirische Studie zu den Bildgenerierungsfähigkeiten von GPT-4o
An Empirical Study of GPT-4o Image Generation Capabilities
April 8, 2025
Autoren: Sixiang Chen, Jinbin Bai, Zhuoran Zhao, Tian Ye, Qingyu Shi, Donghao Zhou, Wenhao Chai, Xin Lin, Jianzong Wu, Chao Tang, Shilin Xu, Tao Zhang, Haobo Yuan, Yikang Zhou, Wei Chow, Linfeng Li, Xiangtai Li, Lei Zhu, Lu Qi
cs.AI
Zusammenfassung
Die Landschaft der Bildgenerierung hat sich rasant weiterentwickelt, von frühen GAN-basierten Ansätzen über Diffusionsmodelle bis hin zu jüngsten, vereinheitlichten generativen Architekturen, die Verständnis- und Generierungsaufgaben miteinander verbinden möchten. Jüngste Fortschritte, insbesondere GPT-4o, haben die Machbarkeit hochwertiger multimodaler Generierung demonstriert, doch ihr architektonisches Design bleibt rätselhaft und unveröffentlicht. Dies wirft die Frage auf, ob Bild- und Textgenerierung bereits erfolgreich in einen einheitlichen Rahmen für diese Methoden integriert wurden. In dieser Arbeit führen wir eine empirische Studie zu den Bildgenerierungsfähigkeiten von GPT-4o durch und vergleichen es mit führenden Open-Source- und kommerziellen Modellen. Unsere Bewertung umfasst vier Hauptkategorien, darunter Text-zu-Bild, Bild-zu-Bild, Bild-zu-3D und Bild-zu-X-Generierung, mit mehr als 20 Aufgaben. Unsere Analyse hebt die Stärken und Grenzen von GPT-4o unter verschiedenen Bedingungen hervor und verortet es innerhalb der breiteren Entwicklung des generativen Modellierens. Durch diese Untersuchung identifizieren wir vielversprechende Richtungen für zukünftige vereinheitlichte generative Modelle, wobei wir die Rolle des architektonischen Designs und der Datenskalierung betonen.
English
The landscape of image generation has rapidly evolved, from early GAN-based
approaches to diffusion models and, most recently, to unified generative
architectures that seek to bridge understanding and generation tasks. Recent
advances, especially the GPT-4o, have demonstrated the feasibility of
high-fidelity multimodal generation, their architectural design remains
mysterious and unpublished. This prompts the question of whether image and text
generation have already been successfully integrated into a unified framework
for those methods. In this work, we conduct an empirical study of GPT-4o's
image generation capabilities, benchmarking it against leading open-source and
commercial models. Our evaluation covers four main categories, including
text-to-image, image-to-image, image-to-3D, and image-to-X generation, with
more than 20 tasks. Our analysis highlights the strengths and limitations of
GPT-4o under various settings, and situates it within the broader evolution of
generative modeling. Through this investigation, we identify promising
directions for future unified generative models, emphasizing the role of
architectural design and data scaling.Summary
AI-Generated Summary