Una Evaluación Temprana de GPT-4V(isión)
An Early Evaluation of GPT-4V(ision)
October 25, 2023
Autores: Yang Wu, Shilong Wang, Hao Yang, Tian Zheng, Hongbo Zhang, Yanyan Zhao, Bing Qin
cs.AI
Resumen
En este artículo, evaluamos diferentes capacidades de GPT-4V, incluyendo la comprensión visual, la comprensión del lenguaje, la resolución de acertijos visuales y la comprensión de otras modalidades como profundidad, térmica, video y audio. Para estimar el rendimiento de GPT-4V, construimos manualmente 656 casos de prueba y evaluamos cuidadosamente los resultados de GPT-4V. Los aspectos más destacados de nuestros hallazgos son los siguientes: (1) GPT-4V muestra un rendimiento impresionante en benchmarks visuales centrados en inglés, pero no logra reconocer textos simples en chino en las imágenes; (2) GPT-4V muestra un comportamiento de rechazo inconsistente al responder preguntas relacionadas con características sensibles como género, raza y edad; (3) GPT-4V obtiene peores resultados que GPT-4 (API) en tareas de comprensión del lenguaje, incluyendo benchmarks generales de comprensión del lenguaje y benchmarks de evaluación de conocimiento de sentido común visual; (4) El prompting de pocos ejemplos puede mejorar el rendimiento de GPT-4V tanto en comprensión visual como en comprensión del lenguaje; (5) GPT-4V tiene dificultades para encontrar los matices entre dos imágenes similares y resolver acertijos matemáticos visuales sencillos; (6) GPT-4V muestra un rendimiento no trivial en tareas de modalidades similares a la imagen, como video y térmica. Nuestros resultados experimentales revelan las capacidades y limitaciones de GPT-4V, y esperamos que nuestro artículo pueda proporcionar algunas ideas sobre la aplicación e investigación de GPT-4V.
English
In this paper, we evaluate different abilities of GPT-4V including visual
understanding, language understanding, visual puzzle solving, and understanding
of other modalities such as depth, thermal, video, and audio. To estimate
GPT-4V's performance, we manually construct 656 test instances and carefully
evaluate the results of GPT-4V. The highlights of our findings are as follows:
(1) GPT-4V exhibits impressive performance on English visual-centric benchmarks
but fails to recognize simple Chinese texts in the images; (2) GPT-4V shows
inconsistent refusal behavior when answering questions related to sensitive
traits such as gender, race, and age; (3) GPT-4V obtains worse results than
GPT-4 (API) on language understanding tasks including general language
understanding benchmarks and visual commonsense knowledge evaluation
benchmarks; (4) Few-shot prompting can improve GPT-4V's performance on both
visual understanding and language understanding; (5) GPT-4V struggles to find
the nuances between two similar images and solve the easy math picture puzzles;
(6) GPT-4V shows non-trivial performance on the tasks of similar modalities to
image, such as video and thermal. Our experimental results reveal the ability
and limitations of GPT-4V and we hope our paper can provide some insights into
the application and research of GPT-4V.