¿Qué Tan Bien Entiende GPT-4o la Visión? Evaluación de Modelos Fundacionales Multimodales en Tareas Estándar de Visión por Computadora
How Well Does GPT-4o Understand Vision? Evaluating Multimodal Foundation Models on Standard Computer Vision Tasks
July 2, 2025
Autores: Rahul Ramachandran, Ali Garjani, Roman Bachmann, Andrei Atanov, Oğuzhan Fatih Kar, Amir Zamir
cs.AI
Resumen
Los modelos fundacionales multimodales, como GPT-4o, han logrado avances notables recientemente, pero no está claro exactamente en qué nivel se encuentran en términos de comprensión visual. En este artículo, evaluamos el rendimiento de modelos fundacionales multimodales populares (GPT-4o, o4-mini, Gemini 1.5 Pro y Gemini 2.0 Flash, Claude 3.5 Sonnet, Qwen2-VL, Llama 3.2) en tareas estándar de visión por computadora (segmentación semántica, detección de objetos, clasificación de imágenes, predicción de profundidad y normales de superficie) utilizando conjuntos de datos establecidos (por ejemplo, COCO, ImageNet y sus variantes, etc.).
Los principales desafíos para realizar esto son: 1) la mayoría de los modelos están entrenados para generar texto y no pueden expresar de forma nativa dominios versátiles, como segmentos o geometría 3D, y 2) muchos de los modelos líderes son propietarios y solo son accesibles a nivel de API, es decir, no hay acceso a los pesos para adaptarlos. Abordamos estos desafíos traduciendo tareas estándar de visión en tareas equivalentes que puedan ser formuladas mediante texto y sean compatibles con API, utilizando cadenas de prompts para crear un marco de evaluación estandarizado.
Observamos que: 1) los modelos no se acercan al estado del arte de los modelos especializados en ninguna tarea. Sin embargo, 2) son generalistas respetables; esto es notable dado que presumiblemente están entrenados principalmente en tareas basadas en imágenes y texto. 3) Desempeñan tareas semánticas notablemente mejor que las geométricas. 4) Aunque las técnicas de cadenas de prompts afectan el rendimiento, los modelos mejores muestran menos sensibilidad a las variaciones de los prompts. 5) GPT-4o tiene el mejor rendimiento entre los modelos no razonadores, obteniendo el primer lugar en 4 de 6 tareas. 6) Los modelos razonadores, como o3, muestran mejoras en tareas geométricas. 7) Un análisis preliminar de modelos con generación nativa de imágenes, como el último GPT-4o, muestra que presentan peculiaridades como alucinaciones y desalineaciones espaciales.
English
Multimodal foundation models, such as GPT-4o, have recently made remarkable
progress, but it is not clear where exactly these models stand in terms of
understanding vision. In this paper, we benchmark the performance of popular
multimodal foundation models (GPT-4o, o4-mini, Gemini 1.5 Pro and Gemini 2.0
Flash, Claude 3.5 Sonnet, Qwen2-VL, Llama 3.2) on standard computer vision
tasks (semantic segmentation, object detection, image classification, depth and
surface normal prediction) using established datasets (e.g., COCO, ImageNet and
its variants, etc).
The main challenges to performing this are: 1) most models are trained to
output text and cannot natively express versatile domains, such as segments or
3D geometry, and 2) many leading models are proprietary and accessible only at
an API level, i.e., there is no weight access to adapt them. We address these
challenges by translating standard vision tasks into equivalent text-promptable
and API-compatible tasks via prompt chaining to create a standardized
benchmarking framework.
We observe that 1) the models are not close to the state-of-the-art
specialist models at any task. However, 2) they are respectable generalists;
this is remarkable as they are presumably trained on primarily image-text-based
tasks. 3) They perform semantic tasks notably better than geometric ones. 4)
While the prompt-chaining techniques affect performance, better models exhibit
less sensitivity to prompt variations. 5) GPT-4o performs the best among
non-reasoning models, securing the top position in 4 out of 6 tasks, 6)
reasoning models, e.g. o3, show improvements in geometric tasks, and 7) a
preliminary analysis of models with native image generation, like the latest
GPT-4o, shows they exhibit quirks like hallucinations and spatial
misalignments.