ChatPaper.aiChatPaper

Wie gut versteht GPT-4o Vision? Eine Bewertung multimodaler Foundation-Modelle anhand standardisierter Computer-Vision-Aufgaben

How Well Does GPT-4o Understand Vision? Evaluating Multimodal Foundation Models on Standard Computer Vision Tasks

July 2, 2025
Autoren: Rahul Ramachandran, Ali Garjani, Roman Bachmann, Andrei Atanov, Oğuzhan Fatih Kar, Amir Zamir
cs.AI

Zusammenfassung

Multimodale Basismodelle wie GPT-4o haben in letzter Zeit bemerkenswerte Fortschritte gemacht, aber es ist unklar, wo genau diese Modelle in Bezug auf das Verständnis von visuellen Informationen stehen. In diesem Artikel evaluieren wir die Leistung populärer multimodaler Basismodelle (GPT-4o, o4-mini, Gemini 1.5 Pro und Gemini 2.0 Flash, Claude 3.5 Sonnet, Qwen2-VL, Llama 3.2) in Standardaufgaben der Computer Vision (semantische Segmentierung, Objekterkennung, Bildklassifizierung, Tiefen- und Oberflächennormalen-Vorhersage) unter Verwendung etablierter Datensätze (z. B. COCO, ImageNet und dessen Varianten usw.). Die Hauptherausforderungen bei dieser Bewertung sind: 1) Die meisten Modelle sind darauf trainiert, Text auszugeben, und können daher vielseitige Domänen wie Segmente oder 3D-Geometrie nicht nativ darstellen, und 2) viele führende Modelle sind proprietär und nur auf API-Ebene zugänglich, d. h., es gibt keinen Zugriff auf die Gewichte, um sie anzupassen. Wir adressieren diese Herausforderungen, indem wir Standard-Vision-Aufgaben in äquivalente, textbasierte und API-kompatible Aufgaben übersetzen, indem wir Prompt-Chaining verwenden, um ein standardisiertes Benchmarking-Framework zu erstellen. Wir beobachten, dass 1) die Modelle in keiner Aufgabe an den Stand der Technik spezialisierter Modelle heranreichen. Allerdings sind 2) sie respektable Generalisten; dies ist bemerkenswert, da sie vermutlich hauptsächlich auf bild-text-basierten Aufgaben trainiert wurden. 3) Sie schneiden bei semantischen Aufgaben deutlich besser ab als bei geometrischen. 4) Während Prompt-Chaining-Techniken die Leistung beeinflussen, zeigen bessere Modelle eine geringere Empfindlichkeit gegenüber Prompt-Variationen. 5) GPT-4o schneidet unter den nicht-reasoning-Modellen am besten ab und sichert sich in 4 von 6 Aufgaben den Spitzenplatz. 6) Reasoning-Modelle, z. B. o3, zeigen Verbesserungen bei geometrischen Aufgaben, und 7) eine vorläufige Analyse von Modellen mit nativer Bildgenerierung, wie das neueste GPT-4o, zeigt, dass sie Eigenheiten wie Halluzinationen und räumliche Fehlausrichtungen aufweisen.
English
Multimodal foundation models, such as GPT-4o, have recently made remarkable progress, but it is not clear where exactly these models stand in terms of understanding vision. In this paper, we benchmark the performance of popular multimodal foundation models (GPT-4o, o4-mini, Gemini 1.5 Pro and Gemini 2.0 Flash, Claude 3.5 Sonnet, Qwen2-VL, Llama 3.2) on standard computer vision tasks (semantic segmentation, object detection, image classification, depth and surface normal prediction) using established datasets (e.g., COCO, ImageNet and its variants, etc). The main challenges to performing this are: 1) most models are trained to output text and cannot natively express versatile domains, such as segments or 3D geometry, and 2) many leading models are proprietary and accessible only at an API level, i.e., there is no weight access to adapt them. We address these challenges by translating standard vision tasks into equivalent text-promptable and API-compatible tasks via prompt chaining to create a standardized benchmarking framework. We observe that 1) the models are not close to the state-of-the-art specialist models at any task. However, 2) they are respectable generalists; this is remarkable as they are presumably trained on primarily image-text-based tasks. 3) They perform semantic tasks notably better than geometric ones. 4) While the prompt-chaining techniques affect performance, better models exhibit less sensitivity to prompt variations. 5) GPT-4o performs the best among non-reasoning models, securing the top position in 4 out of 6 tasks, 6) reasoning models, e.g. o3, show improvements in geometric tasks, and 7) a preliminary analysis of models with native image generation, like the latest GPT-4o, shows they exhibit quirks like hallucinations and spatial misalignments.
PDF212July 7, 2025