Quão Bem o GPT-4o Entende a Visão? Avaliando Modelos de Base Multimodais em Tarefas Padrão de Visão Computacional
How Well Does GPT-4o Understand Vision? Evaluating Multimodal Foundation Models on Standard Computer Vision Tasks
July 2, 2025
Autores: Rahul Ramachandran, Ali Garjani, Roman Bachmann, Andrei Atanov, Oğuzhan Fatih Kar, Amir Zamir
cs.AI
Resumo
Modelos de fundação multimodais, como o GPT-4o, têm recentemente alcançado progressos notáveis, mas não está claro onde exatamente esses modelos se posicionam em termos de compreensão visual. Neste artigo, avaliamos o desempenho de modelos de fundação multimodais populares (GPT-4o, o4-mini, Gemini 1.5 Pro e Gemini 2.0 Flash, Claude 3.5 Sonnet, Qwen2-VL, Llama 3.2) em tarefas padrão de visão computacional (segmentação semântica, detecção de objetos, classificação de imagens, previsão de profundidade e normais de superfície) utilizando conjuntos de dados estabelecidos (por exemplo, COCO, ImageNet e suas variantes, etc.).
Os principais desafios para realizar essa avaliação são: 1) a maioria dos modelos é treinada para gerar texto e não consegue expressar nativamente domínios versáteis, como segmentos ou geometria 3D, e 2) muitos dos principais modelos são proprietários e acessíveis apenas em nível de API, ou seja, não há acesso aos pesos para adaptá-los. Abordamos esses desafios traduzindo tarefas padrão de visão em tarefas equivalentes que podem ser solicitadas por texto e compatíveis com API, por meio de encadeamento de prompts, para criar uma estrutura de avaliação padronizada.
Observamos que 1) os modelos não estão próximos dos modelos especialistas de última geração em nenhuma tarefa. No entanto, 2) eles são generalistas respeitáveis; isso é notável, pois presumivelmente são treinados principalmente em tarefas baseadas em imagem-texto. 3) Eles desempenham tarefas semânticas significativamente melhor do que as geométricas. 4) Embora as técnicas de encadeamento de prompts afetem o desempenho, modelos melhores exibem menos sensibilidade a variações de prompts. 5) O GPT-4o tem o melhor desempenho entre os modelos não especializados em raciocínio, garantindo a primeira posição em 4 de 6 tarefas. 6) Modelos de raciocínio, como o o3, mostram melhorias em tarefas geométricas. 7) Uma análise preliminar de modelos com geração nativa de imagens, como o mais recente GPT-4o, mostra que eles exibem peculiaridades como alucinações e desalinhamentos espaciais.
English
Multimodal foundation models, such as GPT-4o, have recently made remarkable
progress, but it is not clear where exactly these models stand in terms of
understanding vision. In this paper, we benchmark the performance of popular
multimodal foundation models (GPT-4o, o4-mini, Gemini 1.5 Pro and Gemini 2.0
Flash, Claude 3.5 Sonnet, Qwen2-VL, Llama 3.2) on standard computer vision
tasks (semantic segmentation, object detection, image classification, depth and
surface normal prediction) using established datasets (e.g., COCO, ImageNet and
its variants, etc).
The main challenges to performing this are: 1) most models are trained to
output text and cannot natively express versatile domains, such as segments or
3D geometry, and 2) many leading models are proprietary and accessible only at
an API level, i.e., there is no weight access to adapt them. We address these
challenges by translating standard vision tasks into equivalent text-promptable
and API-compatible tasks via prompt chaining to create a standardized
benchmarking framework.
We observe that 1) the models are not close to the state-of-the-art
specialist models at any task. However, 2) they are respectable generalists;
this is remarkable as they are presumably trained on primarily image-text-based
tasks. 3) They perform semantic tasks notably better than geometric ones. 4)
While the prompt-chaining techniques affect performance, better models exhibit
less sensitivity to prompt variations. 5) GPT-4o performs the best among
non-reasoning models, securing the top position in 4 out of 6 tasks, 6)
reasoning models, e.g. o3, show improvements in geometric tasks, and 7) a
preliminary analysis of models with native image generation, like the latest
GPT-4o, shows they exhibit quirks like hallucinations and spatial
misalignments.