Een vroege evaluatie van GPT-4V(ision)

Samenvatting

In dit artikel evalueren we verschillende vaardigheden van GPT-4V, waaronder visueel begrip, taalbegrip, het oplossen van visuele puzzels, en het begrijpen van andere modaliteiten zoals diepte, thermisch, video en audio. Om de prestaties van GPT-4V te schatten, hebben we handmatig 656 testgevallen geconstrueerd en de resultaten van GPT-4V zorgvuldig geëvalueerd. De belangrijkste bevindingen zijn als volgt: (1) GPT-4V vertoont indrukwekkende prestaties op Engelstalige visueel gerichte benchmarks, maar slaagt er niet in eenvoudige Chinese teksten in afbeeldingen te herkennen; (2) GPT-4V toont inconsistent weigeringsgedrag bij het beantwoorden van vragen over gevoelige kenmerken zoals geslacht, ras en leeftijd; (3) GPT-4V behaalt slechtere resultaten dan GPT-4 (API) op taken voor taalbegrip, waaronder algemene taalbegripbenchmarks en benchmarks voor visueel gezond verstand; (4) Few-shot prompting kan de prestaties van GPT-4V verbeteren op zowel visueel begrip als taalbegrip; (5) GPT-4V heeft moeite om de nuances tussen twee vergelijkbare afbeeldingen te vinden en eenvoudige wiskundige beeldpuzzels op te lossen; (6) GPT-4V toont aanzienlijke prestaties op taken met modaliteiten die vergelijkbaar zijn met afbeeldingen, zoals video en thermisch. Onze experimentele resultaten onthullen de mogelijkheden en beperkingen van GPT-4V, en we hopen dat ons artikel inzichten kan bieden voor de toepassing en het onderzoek van GPT-4V.

English

In this paper, we evaluate different abilities of GPT-4V including visual understanding, language understanding, visual puzzle solving, and understanding of other modalities such as depth, thermal, video, and audio. To estimate GPT-4V's performance, we manually construct 656 test instances and carefully evaluate the results of GPT-4V. The highlights of our findings are as follows: (1) GPT-4V exhibits impressive performance on English visual-centric benchmarks but fails to recognize simple Chinese texts in the images; (2) GPT-4V shows inconsistent refusal behavior when answering questions related to sensitive traits such as gender, race, and age; (3) GPT-4V obtains worse results than GPT-4 (API) on language understanding tasks including general language understanding benchmarks and visual commonsense knowledge evaluation benchmarks; (4) Few-shot prompting can improve GPT-4V's performance on both visual understanding and language understanding; (5) GPT-4V struggles to find the nuances between two similar images and solve the easy math picture puzzles; (6) GPT-4V shows non-trivial performance on the tasks of similar modalities to image, such as video and thermal. Our experimental results reveal the ability and limitations of GPT-4V and we hope our paper can provide some insights into the application and research of GPT-4V.

Een vroege evaluatie van GPT-4V(ision)

An Early Evaluation of GPT-4V(ision)

Samenvatting

Support