ChatPaper.aiChatPaper

Eine frühe Evaluierung von GPT-4V(ision)

An Early Evaluation of GPT-4V(ision)

October 25, 2023
Autoren: Yang Wu, Shilong Wang, Hao Yang, Tian Zheng, Hongbo Zhang, Yanyan Zhao, Bing Qin
cs.AI

Zusammenfassung

In diesem Artikel evaluieren wir verschiedene Fähigkeiten von GPT-4V, darunter visuelles Verständnis, Sprachverständnis, das Lösen visueller Rätsel sowie das Verständnis anderer Modalitäten wie Tiefe, Thermik, Video und Audio. Um die Leistung von GPT-4V zu bewerten, haben wir manuell 656 Testinstanzen erstellt und die Ergebnisse von GPT-4V sorgfältig ausgewertet. Die wichtigsten Erkenntnisse unserer Untersuchung sind wie folgt: (1) GPT-4V zeigt beeindruckende Leistungen bei englischsprachigen, visuell zentrierten Benchmarks, scheitert jedoch daran, einfache chinesische Texte in Bildern zu erkennen; (2) GPT-4V zeigt inkonsistentes Ablehnungsverhalten bei der Beantwortung von Fragen zu sensiblen Merkmalen wie Geschlecht, Rasse und Alter; (3) GPT-4V erzielt schlechtere Ergebnisse als GPT-4 (API) bei Sprachverständnisaufgaben, einschließlich allgemeiner Sprachverständnis-Benchmarks und Benchmarks zur Bewertung visuellen Alltagswissens; (4) Few-Shot-Prompting kann die Leistung von GPT-4V sowohl beim visuellen als auch beim Sprachverständnis verbessern; (5) GPT-4V hat Schwierigkeiten, die Nuancen zwischen zwei ähnlichen Bildern zu erkennen und einfache mathematische Bilderrätsel zu lösen; (6) GPT-4V zeigt beachtliche Leistungen bei Aufgaben mit ähnlichen Modalitäten wie Bildern, beispielsweise Video und Thermik. Unsere experimentellen Ergebnisse offenbaren die Fähigkeiten und Grenzen von GPT-4V, und wir hoffen, dass unser Artikel einige Einblicke in die Anwendung und Forschung von GPT-4V bieten kann.
English
In this paper, we evaluate different abilities of GPT-4V including visual understanding, language understanding, visual puzzle solving, and understanding of other modalities such as depth, thermal, video, and audio. To estimate GPT-4V's performance, we manually construct 656 test instances and carefully evaluate the results of GPT-4V. The highlights of our findings are as follows: (1) GPT-4V exhibits impressive performance on English visual-centric benchmarks but fails to recognize simple Chinese texts in the images; (2) GPT-4V shows inconsistent refusal behavior when answering questions related to sensitive traits such as gender, race, and age; (3) GPT-4V obtains worse results than GPT-4 (API) on language understanding tasks including general language understanding benchmarks and visual commonsense knowledge evaluation benchmarks; (4) Few-shot prompting can improve GPT-4V's performance on both visual understanding and language understanding; (5) GPT-4V struggles to find the nuances between two similar images and solve the easy math picture puzzles; (6) GPT-4V shows non-trivial performance on the tasks of similar modalities to image, such as video and thermal. Our experimental results reveal the ability and limitations of GPT-4V and we hope our paper can provide some insights into the application and research of GPT-4V.
PDF221December 15, 2024