Una Valutazione Preliminare di GPT-4V(ision)

Abstract

In questo articolo, valutiamo diverse capacità di GPT-4V, tra cui la comprensione visiva, la comprensione linguistica, la risoluzione di puzzle visivi e la comprensione di altre modalità come profondità, termica, video e audio. Per stimare le prestazioni di GPT-4V, abbiamo costruito manualmente 656 istanze di test e valutato attentamente i risultati di GPT-4V. I punti salienti delle nostre scoperte sono i seguenti: (1) GPT-4V mostra prestazioni impressionanti su benchmark visivi in inglese, ma non riesce a riconoscere semplici testi cinesi nelle immagini; (2) GPT-4V mostra un comportamento di rifiuto incoerente quando risponde a domande relative a tratti sensibili come genere, razza ed età; (3) GPT-4V ottiene risultati peggiori rispetto a GPT-4 (API) nei compiti di comprensione linguistica, inclusi benchmark generali di comprensione linguistica e benchmark di valutazione della conoscenza comune visiva; (4) Il prompting few-shot può migliorare le prestazioni di GPT-4V sia nella comprensione visiva che in quella linguistica; (5) GPT-4V fatica a trovare le sfumature tra due immagini simili e a risolvere semplici puzzle matematici visivi; (6) GPT-4V mostra prestazioni non banali nei compiti di modalità simili all'immagine, come video e termica. I nostri risultati sperimentali rivelano le capacità e i limiti di GPT-4V e speriamo che il nostro articolo possa fornire alcuni spunti per l'applicazione e la ricerca su GPT-4V.

English

In this paper, we evaluate different abilities of GPT-4V including visual understanding, language understanding, visual puzzle solving, and understanding of other modalities such as depth, thermal, video, and audio. To estimate GPT-4V's performance, we manually construct 656 test instances and carefully evaluate the results of GPT-4V. The highlights of our findings are as follows: (1) GPT-4V exhibits impressive performance on English visual-centric benchmarks but fails to recognize simple Chinese texts in the images; (2) GPT-4V shows inconsistent refusal behavior when answering questions related to sensitive traits such as gender, race, and age; (3) GPT-4V obtains worse results than GPT-4 (API) on language understanding tasks including general language understanding benchmarks and visual commonsense knowledge evaluation benchmarks; (4) Few-shot prompting can improve GPT-4V's performance on both visual understanding and language understanding; (5) GPT-4V struggles to find the nuances between two similar images and solve the easy math picture puzzles; (6) GPT-4V shows non-trivial performance on the tasks of similar modalities to image, such as video and thermal. Our experimental results reveal the ability and limitations of GPT-4V and we hope our paper can provide some insights into the application and research of GPT-4V.

Una Valutazione Preliminare di GPT-4V(ision)

An Early Evaluation of GPT-4V(ision)

Abstract

Support