Une évaluation préliminaire de GPT-4V(ision)
An Early Evaluation of GPT-4V(ision)
October 25, 2023
Auteurs: Yang Wu, Shilong Wang, Hao Yang, Tian Zheng, Hongbo Zhang, Yanyan Zhao, Bing Qin
cs.AI
Résumé
Dans cet article, nous évaluons différentes capacités de GPT-4V, notamment la compréhension visuelle, la compréhension linguistique, la résolution de puzzles visuels, et la compréhension d'autres modalités telles que la profondeur, l'infrarouge, la vidéo et l'audio. Pour estimer les performances de GPT-4V, nous avons manuellement construit 656 instances de test et soigneusement évalué les résultats de GPT-4V. Les points forts de nos découvertes sont les suivants : (1) GPT-4V montre des performances impressionnantes sur des benchmarks visuels centrés sur l'anglais, mais échoue à reconnaître des textes chinois simples dans les images ; (2) GPT-4V présente un comportement de refus incohérent lorsqu'il répond à des questions liées à des traits sensibles tels que le genre, la race et l'âge ; (3) GPT-4V obtient de moins bons résultats que GPT-4 (API) sur des tâches de compréhension linguistique, y compris des benchmarks généraux de compréhension linguistique et des benchmarks d'évaluation des connaissances de bon sens visuel ; (4) L'incitation en few-shot peut améliorer les performances de GPT-4V à la fois en compréhension visuelle et en compréhension linguistique ; (5) GPT-4V a du mal à trouver les nuances entre deux images similaires et à résoudre des puzzles mathématiques visuels simples ; (6) GPT-4V montre des performances non négligeables sur des tâches de modalités similaires à l'image, comme la vidéo et l'infrarouge. Nos résultats expérimentaux révèlent les capacités et les limites de GPT-4V, et nous espérons que notre article pourra fournir des insights pour l'application et la recherche sur GPT-4V.
English
In this paper, we evaluate different abilities of GPT-4V including visual
understanding, language understanding, visual puzzle solving, and understanding
of other modalities such as depth, thermal, video, and audio. To estimate
GPT-4V's performance, we manually construct 656 test instances and carefully
evaluate the results of GPT-4V. The highlights of our findings are as follows:
(1) GPT-4V exhibits impressive performance on English visual-centric benchmarks
but fails to recognize simple Chinese texts in the images; (2) GPT-4V shows
inconsistent refusal behavior when answering questions related to sensitive
traits such as gender, race, and age; (3) GPT-4V obtains worse results than
GPT-4 (API) on language understanding tasks including general language
understanding benchmarks and visual commonsense knowledge evaluation
benchmarks; (4) Few-shot prompting can improve GPT-4V's performance on both
visual understanding and language understanding; (5) GPT-4V struggles to find
the nuances between two similar images and solve the easy math picture puzzles;
(6) GPT-4V shows non-trivial performance on the tasks of similar modalities to
image, such as video and thermal. Our experimental results reveal the ability
and limitations of GPT-4V and we hope our paper can provide some insights into
the application and research of GPT-4V.