ChatPaper.aiChatPaper

Dans quelle mesure GPT-4o comprend-il la vision ? Évaluation des modèles de fondation multimodaux sur des tâches standard de vision par ordinateur

How Well Does GPT-4o Understand Vision? Evaluating Multimodal Foundation Models on Standard Computer Vision Tasks

July 2, 2025
Auteurs: Rahul Ramachandran, Ali Garjani, Roman Bachmann, Andrei Atanov, Oğuzhan Fatih Kar, Amir Zamir
cs.AI

Résumé

Les modèles fondationnels multimodaux, tels que GPT-4o, ont récemment réalisé des progrès remarquables, mais il n'est pas clair où se situent exactement ces modèles en termes de compréhension visuelle. Dans cet article, nous évaluons les performances des modèles fondationnels multimodaux populaires (GPT-4o, o4-mini, Gemini 1.5 Pro et Gemini 2.0 Flash, Claude 3.5 Sonnet, Qwen2-VL, Llama 3.2) sur des tâches standard de vision par ordinateur (segmentation sémantique, détection d'objets, classification d'images, prédiction de profondeur et de normales de surface) en utilisant des ensembles de données établis (par exemple, COCO, ImageNet et ses variantes, etc.). Les principaux défis pour réaliser cette évaluation sont : 1) la plupart des modèles sont entraînés à produire du texte et ne peuvent pas exprimer nativement des domaines variés, tels que des segments ou de la géométrie 3D, et 2) de nombreux modèles leaders sont propriétaires et accessibles uniquement au niveau d'une API, c'est-à-dire qu'il n'y a pas d'accès aux poids pour les adapter. Nous relevons ces défis en traduisant les tâches standard de vision en tâches équivalentes pouvant être sollicitées par des prompts textuels et compatibles avec les API, via un enchaînement de prompts, pour créer un cadre d'évaluation standardisé. Nous observons que 1) les modèles ne sont pas proches des modèles spécialistes de pointe dans aucune tâche. Cependant, 2) ils sont des généralistes respectables ; ce qui est remarquable car ils sont probablement entraînés principalement sur des tâches basées sur des images et du texte. 3) Ils performent nettement mieux dans les tâches sémantiques que dans les tâches géométriques. 4) Bien que les techniques d'enchaînement de prompts affectent les performances, les meilleurs modèles montrent moins de sensibilité aux variations de prompts. 5) GPT-4o obtient les meilleurs résultats parmi les modèles non raisonnants, se classant premier dans 4 tâches sur 6. 6) Les modèles raisonnants, par exemple o3, montrent des améliorations dans les tâches géométriques. 7) Une analyse préliminaire des modèles avec génération d'images native, comme le dernier GPT-4o, montre qu'ils présentent des particularités telles que des hallucinations et des désalignements spatiaux.
English
Multimodal foundation models, such as GPT-4o, have recently made remarkable progress, but it is not clear where exactly these models stand in terms of understanding vision. In this paper, we benchmark the performance of popular multimodal foundation models (GPT-4o, o4-mini, Gemini 1.5 Pro and Gemini 2.0 Flash, Claude 3.5 Sonnet, Qwen2-VL, Llama 3.2) on standard computer vision tasks (semantic segmentation, object detection, image classification, depth and surface normal prediction) using established datasets (e.g., COCO, ImageNet and its variants, etc). The main challenges to performing this are: 1) most models are trained to output text and cannot natively express versatile domains, such as segments or 3D geometry, and 2) many leading models are proprietary and accessible only at an API level, i.e., there is no weight access to adapt them. We address these challenges by translating standard vision tasks into equivalent text-promptable and API-compatible tasks via prompt chaining to create a standardized benchmarking framework. We observe that 1) the models are not close to the state-of-the-art specialist models at any task. However, 2) they are respectable generalists; this is remarkable as they are presumably trained on primarily image-text-based tasks. 3) They perform semantic tasks notably better than geometric ones. 4) While the prompt-chaining techniques affect performance, better models exhibit less sensitivity to prompt variations. 5) GPT-4o performs the best among non-reasoning models, securing the top position in 4 out of 6 tasks, 6) reasoning models, e.g. o3, show improvements in geometric tasks, and 7) a preliminary analysis of models with native image generation, like the latest GPT-4o, shows they exhibit quirks like hallucinations and spatial misalignments.
PDF212July 7, 2025