Hoe goed begrijpt GPT-4o visie? Evaluatie van multimodale foundation modellen op standaard computervisietaken
How Well Does GPT-4o Understand Vision? Evaluating Multimodal Foundation Models on Standard Computer Vision Tasks
July 2, 2025
Auteurs: Rahul Ramachandran, Ali Garjani, Roman Bachmann, Andrei Atanov, Oğuzhan Fatih Kar, Amir Zamir
cs.AI
Samenvatting
Multimodale foundation models, zoals GPT-4o, hebben recentelijk opmerkelijke vooruitgang geboekt, maar het is niet duidelijk waar deze modellen precies staan op het gebied van visueel begrip. In dit artikel evalueren we de prestaties van populaire multimodale foundation models (GPT-4o, o4-mini, Gemini 1.5 Pro en Gemini 2.0 Flash, Claude 3.5 Sonnet, Qwen2-VL, Llama 3.2) op standaard computervisietaken (semantische segmentatie, objectdetectie, beeldclassificatie, diepte- en oppervlaktenormaalvoorspelling) met behulp van gevestigde datasets (bijv. COCO, ImageNet en zijn varianten, enz.).
De belangrijkste uitdagingen bij het uitvoeren hiervan zijn: 1) de meeste modellen zijn getraind om tekst uit te voeren en kunnen van nature geen veelzijdige domeinen uitdrukken, zoals segmenten of 3D-geometrie, en 2) veel toonaangevende modellen zijn propriëtair en alleen toegankelijk op API-niveau, d.w.z. er is geen toegang tot de gewichten om ze aan te passen. We pakken deze uitdagingen aan door standaard visietaken te vertalen naar equivalente tekst-promptbare en API-compatibele taken via prompt-chaining om een gestandaardiseerd benchmarkframework te creëren.
We observeren dat 1) de modellen niet in de buurt komen van de state-of-the-art specialistische modellen bij welke taak dan ook. Echter, 2) ze zijn respectabele generalisten; dit is opmerkelijk omdat ze vermoedelijk voornamelijk getraind zijn op beeld-tekst-gebaseerde taken. 3) Ze presteren aanzienlijk beter bij semantische taken dan bij geometrische. 4) Hoewel de prompt-chainingtechnieken de prestaties beïnvloeden, tonen betere modellen minder gevoeligheid voor promptvariaties. 5) GPT-4o presteert het beste onder de niet-redenerende modellen en behaalt de top positie in 4 van de 6 taken, 6) redenerende modellen, zoals o3, laten verbeteringen zien bij geometrische taken, en 7) een voorlopige analyse van modellen met native beeldgeneratie, zoals de nieuwste GPT-4o, toont aan dat ze eigenaardigheden vertonen zoals hallucinaties en ruimtelijke misaligneringen.
English
Multimodal foundation models, such as GPT-4o, have recently made remarkable
progress, but it is not clear where exactly these models stand in terms of
understanding vision. In this paper, we benchmark the performance of popular
multimodal foundation models (GPT-4o, o4-mini, Gemini 1.5 Pro and Gemini 2.0
Flash, Claude 3.5 Sonnet, Qwen2-VL, Llama 3.2) on standard computer vision
tasks (semantic segmentation, object detection, image classification, depth and
surface normal prediction) using established datasets (e.g., COCO, ImageNet and
its variants, etc).
The main challenges to performing this are: 1) most models are trained to
output text and cannot natively express versatile domains, such as segments or
3D geometry, and 2) many leading models are proprietary and accessible only at
an API level, i.e., there is no weight access to adapt them. We address these
challenges by translating standard vision tasks into equivalent text-promptable
and API-compatible tasks via prompt chaining to create a standardized
benchmarking framework.
We observe that 1) the models are not close to the state-of-the-art
specialist models at any task. However, 2) they are respectable generalists;
this is remarkable as they are presumably trained on primarily image-text-based
tasks. 3) They perform semantic tasks notably better than geometric ones. 4)
While the prompt-chaining techniques affect performance, better models exhibit
less sensitivity to prompt variations. 5) GPT-4o performs the best among
non-reasoning models, securing the top position in 4 out of 6 tasks, 6)
reasoning models, e.g. o3, show improvements in geometric tasks, and 7) a
preliminary analysis of models with native image generation, like the latest
GPT-4o, shows they exhibit quirks like hallucinations and spatial
misalignments.