Quanto Comprende GPT-4o la Visione? Valutazione dei Modelli Fondamentali Multimodali su Compiti Standard di Computer Vision
How Well Does GPT-4o Understand Vision? Evaluating Multimodal Foundation Models on Standard Computer Vision Tasks
July 2, 2025
Autori: Rahul Ramachandran, Ali Garjani, Roman Bachmann, Andrei Atanov, Oğuzhan Fatih Kar, Amir Zamir
cs.AI
Abstract
I modelli fondazionali multimodali, come GPT-4o, hanno recentemente compiuto progressi significativi, ma non è chiaro dove si collochino esattamente in termini di comprensione della visione. In questo articolo, valutiamo le prestazioni di popolari modelli fondazionali multimodali (GPT-4o, o4-mini, Gemini 1.5 Pro e Gemini 2.0 Flash, Claude 3.5 Sonnet, Qwen2-VL, Llama 3.2) su compiti standard di visione artificiale (segmentazione semantica, rilevamento di oggetti, classificazione di immagini, previsione di profondità e normali di superficie) utilizzando dataset consolidati (ad esempio, COCO, ImageNet e sue varianti, ecc.).
Le principali sfide per eseguire questa valutazione sono: 1) la maggior parte dei modelli è addestrata a produrre testo e non può esprimere nativamente domini versatili, come segmenti o geometria 3D, e 2) molti modelli leader sono proprietari e accessibili solo a livello di API, ovvero non c'è accesso ai pesi per adattarli. Affrontiamo queste sfide traducendo i compiti standard di visione in compiti equivalenti che possono essere formulati tramite prompt e compatibili con le API, utilizzando il concatenamento di prompt per creare un framework di benchmarking standardizzato.
Osserviamo che: 1) i modelli non si avvicinano ai modelli specialistici all'avanguardia in nessun compito. Tuttavia, 2) sono rispettabili generalisti; questo è notevole considerando che presumibilmente sono addestrati principalmente su compiti basati su immagini e testo. 3) Eseguono compiti semantici in modo significativamente migliore rispetto a quelli geometrici. 4) Sebbene le tecniche di concatenamento di prompt influenzino le prestazioni, i modelli migliori mostrano una minore sensibilità alle variazioni dei prompt. 5) GPT-4o si comporta meglio tra i modelli non deduttivi, ottenendo la prima posizione in 4 su 6 compiti. 6) I modelli deduttivi, ad esempio o3, mostrano miglioramenti nei compiti geometrici. 7) Un'analisi preliminare dei modelli con generazione nativa di immagini, come l'ultimo GPT-4o, mostra che presentano peculiarità come allucinazioni e disallineamenti spaziali.
English
Multimodal foundation models, such as GPT-4o, have recently made remarkable
progress, but it is not clear where exactly these models stand in terms of
understanding vision. In this paper, we benchmark the performance of popular
multimodal foundation models (GPT-4o, o4-mini, Gemini 1.5 Pro and Gemini 2.0
Flash, Claude 3.5 Sonnet, Qwen2-VL, Llama 3.2) on standard computer vision
tasks (semantic segmentation, object detection, image classification, depth and
surface normal prediction) using established datasets (e.g., COCO, ImageNet and
its variants, etc).
The main challenges to performing this are: 1) most models are trained to
output text and cannot natively express versatile domains, such as segments or
3D geometry, and 2) many leading models are proprietary and accessible only at
an API level, i.e., there is no weight access to adapt them. We address these
challenges by translating standard vision tasks into equivalent text-promptable
and API-compatible tasks via prompt chaining to create a standardized
benchmarking framework.
We observe that 1) the models are not close to the state-of-the-art
specialist models at any task. However, 2) they are respectable generalists;
this is remarkable as they are presumably trained on primarily image-text-based
tasks. 3) They perform semantic tasks notably better than geometric ones. 4)
While the prompt-chaining techniques affect performance, better models exhibit
less sensitivity to prompt variations. 5) GPT-4o performs the best among
non-reasoning models, securing the top position in 4 out of 6 tasks, 6)
reasoning models, e.g. o3, show improvements in geometric tasks, and 7) a
preliminary analysis of models with native image generation, like the latest
GPT-4o, shows they exhibit quirks like hallucinations and spatial
misalignments.