Ранняя оценка GPT-4V(ision)
An Early Evaluation of GPT-4V(ision)
October 25, 2023
Авторы: Yang Wu, Shilong Wang, Hao Yang, Tian Zheng, Hongbo Zhang, Yanyan Zhao, Bing Qin
cs.AI
Аннотация
В данной статье мы оцениваем различные способности GPT-4V, включая визуальное понимание, понимание языка, решение визуальных головоломок, а также понимание других модальностей, таких как глубина, тепловизор, видео и аудио. Для оценки производительности GPT-4V мы вручную создали 656 тестовых примеров и тщательно проанализировали результаты работы GPT-4V. Основные выводы нашего исследования следующие: (1) GPT-4V демонстрирует впечатляющие результаты на англоязычных визуально-ориентированных тестах, но не распознает простые китайские тексты на изображениях; (2) GPT-4V проявляет непоследовательное поведение при отказе отвечать на вопросы, связанные с чувствительными темами, такими как пол, раса и возраст; (3) GPT-4V показывает худшие результаты по сравнению с GPT-4 (API) в задачах на понимание языка, включая общие тесты на понимание языка и тесты на визуальное здравомыслие; (4) Few-shot prompting может улучшить производительность GPT-4V как в визуальном, так и в языковом понимании; (5) GPT-4V испытывает трудности с обнаружением нюансов между двумя похожими изображениями и решением простых математических головоломок; (6) GPT-4V демонстрирует значимые результаты в задачах, связанных с модальностями, схожими с изображениями, такими как видео и тепловизор. Наши экспериментальные результаты раскрывают возможности и ограничения GPT-4V, и мы надеемся, что наша статья сможет внести вклад в применение и исследование GPT-4V.
English
In this paper, we evaluate different abilities of GPT-4V including visual
understanding, language understanding, visual puzzle solving, and understanding
of other modalities such as depth, thermal, video, and audio. To estimate
GPT-4V's performance, we manually construct 656 test instances and carefully
evaluate the results of GPT-4V. The highlights of our findings are as follows:
(1) GPT-4V exhibits impressive performance on English visual-centric benchmarks
but fails to recognize simple Chinese texts in the images; (2) GPT-4V shows
inconsistent refusal behavior when answering questions related to sensitive
traits such as gender, race, and age; (3) GPT-4V obtains worse results than
GPT-4 (API) on language understanding tasks including general language
understanding benchmarks and visual commonsense knowledge evaluation
benchmarks; (4) Few-shot prompting can improve GPT-4V's performance on both
visual understanding and language understanding; (5) GPT-4V struggles to find
the nuances between two similar images and solve the easy math picture puzzles;
(6) GPT-4V shows non-trivial performance on the tasks of similar modalities to
image, such as video and thermal. Our experimental results reveal the ability
and limitations of GPT-4V and we hope our paper can provide some insights into
the application and research of GPT-4V.