GPT-4V(ision)の初期評価
An Early Evaluation of GPT-4V(ision)
October 25, 2023
著者: Yang Wu, Shilong Wang, Hao Yang, Tian Zheng, Hongbo Zhang, Yanyan Zhao, Bing Qin
cs.AI
要旨
本論文では、GPT-4Vのさまざまな能力を評価します。これには、視覚理解、言語理解、視覚パズル解決、および深度、熱、ビデオ、オーディオなどの他のモダリティの理解が含まれます。GPT-4Vの性能を推定するために、656のテストインスタンスを手動で構築し、GPT-4Vの結果を慎重に評価しました。私たちの調査結果のハイライトは以下の通りです:(1)GPT-4Vは英語の視覚中心のベンチマークで印象的な性能を示しますが、画像内の簡単な中国語テキストを認識できません;(2)GPT-4Vは、性別、人種、年齢などの敏感な特性に関連する質問に答える際に、一貫しない拒否行動を示します;(3)GPT-4Vは、一般的な言語理解ベンチマークや視覚的常識知識評価ベンチマークを含む言語理解タスクにおいて、GPT-4(API)よりも悪い結果を出します;(4)Few-shotプロンプティングは、GPT-4Vの視覚理解と言語理解の両方の性能を向上させることができます;(5)GPT-4Vは、2つの類似した画像の微妙な違いを見つけることや、簡単な数学パズルを解決することに苦労します;(6)GPT-4Vは、ビデオや熱などの画像に類似したモダリティのタスクで非自明な性能を示します。私たちの実験結果は、GPT-4Vの能力と限界を明らかにし、本論文がGPT-4Vの応用と研究にいくつかの洞察を提供することを期待しています。
English
In this paper, we evaluate different abilities of GPT-4V including visual
understanding, language understanding, visual puzzle solving, and understanding
of other modalities such as depth, thermal, video, and audio. To estimate
GPT-4V's performance, we manually construct 656 test instances and carefully
evaluate the results of GPT-4V. The highlights of our findings are as follows:
(1) GPT-4V exhibits impressive performance on English visual-centric benchmarks
but fails to recognize simple Chinese texts in the images; (2) GPT-4V shows
inconsistent refusal behavior when answering questions related to sensitive
traits such as gender, race, and age; (3) GPT-4V obtains worse results than
GPT-4 (API) on language understanding tasks including general language
understanding benchmarks and visual commonsense knowledge evaluation
benchmarks; (4) Few-shot prompting can improve GPT-4V's performance on both
visual understanding and language understanding; (5) GPT-4V struggles to find
the nuances between two similar images and solve the easy math picture puzzles;
(6) GPT-4V shows non-trivial performance on the tasks of similar modalities to
image, such as video and thermal. Our experimental results reveal the ability
and limitations of GPT-4V and we hope our paper can provide some insights into
the application and research of GPT-4V.