Une évaluation préliminaire de GPT-4V(ision)

Résumé

Dans cet article, nous évaluons différentes capacités de GPT-4V, notamment la compréhension visuelle, la compréhension linguistique, la résolution de puzzles visuels, et la compréhension d'autres modalités telles que la profondeur, l'infrarouge, la vidéo et l'audio. Pour estimer les performances de GPT-4V, nous avons manuellement construit 656 instances de test et soigneusement évalué les résultats de GPT-4V. Les points forts de nos découvertes sont les suivants : (1) GPT-4V montre des performances impressionnantes sur des benchmarks visuels centrés sur l'anglais, mais échoue à reconnaître des textes chinois simples dans les images ; (2) GPT-4V présente un comportement de refus incohérent lorsqu'il répond à des questions liées à des traits sensibles tels que le genre, la race et l'âge ; (3) GPT-4V obtient de moins bons résultats que GPT-4 (API) sur des tâches de compréhension linguistique, y compris des benchmarks généraux de compréhension linguistique et des benchmarks d'évaluation des connaissances de bon sens visuel ; (4) L'incitation en few-shot peut améliorer les performances de GPT-4V à la fois en compréhension visuelle et en compréhension linguistique ; (5) GPT-4V a du mal à trouver les nuances entre deux images similaires et à résoudre des puzzles mathématiques visuels simples ; (6) GPT-4V montre des performances non négligeables sur des tâches de modalités similaires à l'image, comme la vidéo et l'infrarouge. Nos résultats expérimentaux révèlent les capacités et les limites de GPT-4V, et nous espérons que notre article pourra fournir des insights pour l'application et la recherche sur GPT-4V.

English

In this paper, we evaluate different abilities of GPT-4V including visual understanding, language understanding, visual puzzle solving, and understanding of other modalities such as depth, thermal, video, and audio. To estimate GPT-4V's performance, we manually construct 656 test instances and carefully evaluate the results of GPT-4V. The highlights of our findings are as follows: (1) GPT-4V exhibits impressive performance on English visual-centric benchmarks but fails to recognize simple Chinese texts in the images; (2) GPT-4V shows inconsistent refusal behavior when answering questions related to sensitive traits such as gender, race, and age; (3) GPT-4V obtains worse results than GPT-4 (API) on language understanding tasks including general language understanding benchmarks and visual commonsense knowledge evaluation benchmarks; (4) Few-shot prompting can improve GPT-4V's performance on both visual understanding and language understanding; (5) GPT-4V struggles to find the nuances between two similar images and solve the easy math picture puzzles; (6) GPT-4V shows non-trivial performance on the tasks of similar modalities to image, such as video and thermal. Our experimental results reveal the ability and limitations of GPT-4V and we hope our paper can provide some insights into the application and research of GPT-4V.

Une évaluation préliminaire de GPT-4V(ision)

An Early Evaluation of GPT-4V(ision)

Résumé

Support