GPT-4o는 비전을 얼마나 잘 이해할까? 표준 컴퓨터 비전 작업에서 멀티모달 기반 모델 평가
How Well Does GPT-4o Understand Vision? Evaluating Multimodal Foundation Models on Standard Computer Vision Tasks
July 2, 2025
저자: Rahul Ramachandran, Ali Garjani, Roman Bachmann, Andrei Atanov, Oğuzhan Fatih Kar, Amir Zamir
cs.AI
초록
GPT-4o와 같은 멀티모달 파운데이션 모델들은 최근 눈부신 발전을 이루었지만, 이러한 모델들이 시각 이해 측면에서 정확히 어디에 위치하는지는 명확하지 않습니다. 본 논문에서는 널리 사용되는 멀티모달 파운데이션 모델들(GPT-4o, o4-mini, Gemini 1.5 Pro 및 Gemini 2.0 Flash, Claude 3.5 Sonnet, Qwen2-VL, Llama 3.2)의 성능을 표준 컴퓨터 비전 작업(의미론적 분할, 객체 탐지, 이미지 분류, 깊이 및 표면 법선 예측)에 대해 기존 데이터셋(예: COCO, ImageNet 및 그 변형 등)을 사용하여 벤치마킹합니다.
이를 수행하는 데 있어 주요 도전 과제는 다음과 같습니다: 1) 대부분의 모델은 텍스트를 출력하도록 훈련되어 있어 세그먼트나 3D 기하학과 같은 다양한 도메인을 기본적으로 표현할 수 없으며, 2) 많은 주요 모델들은 독점적이며 API 수준에서만 접근 가능합니다. 즉, 이를 적응시키기 위한 가중치 접근이 불가능합니다. 우리는 이러한 도전 과제를 프롬프트 체인을 통해 표준 비전 작업을 동등한 텍스트 프롬프트 가능 및 API 호환 작업으로 변환하여 표준화된 벤치마킹 프레임워크를 구축함으로써 해결합니다.
우리는 다음과 같은 관찰 결과를 얻었습니다: 1) 모델들은 어떤 작업에서도 최신 전문 모델에 근접하지 못합니다. 그러나 2) 그들은 존경할 만한 일반주의자로서 주로 이미지-텍스트 기반 작업으로 훈련된 것으로 추정됨에도 불구하고 주목할 만합니다. 3) 그들은 기하학적 작업보다 의미론적 작업에서 현저히 더 나은 성능을 보입니다. 4) 프롬프트 체인 기법이 성능에 영향을 미치지만, 더 나은 모델들은 프롬프트 변동에 덜 민감합니다. 5) GPT-4o는 비-추론 모델들 중에서 가장 우수한 성능을 보이며, 6개 작업 중 4개에서 최상위를 차지합니다. 6) o3와 같은 추론 모델들은 기하학적 작업에서 개선을 보입니다. 7) 최신 GPT-4o와 같은 기본 이미지 생성 기능을 가진 모델들의 예비 분석은 환각 및 공간적 불일치와 같은 특이 현상을 보여줍니다.
English
Multimodal foundation models, such as GPT-4o, have recently made remarkable
progress, but it is not clear where exactly these models stand in terms of
understanding vision. In this paper, we benchmark the performance of popular
multimodal foundation models (GPT-4o, o4-mini, Gemini 1.5 Pro and Gemini 2.0
Flash, Claude 3.5 Sonnet, Qwen2-VL, Llama 3.2) on standard computer vision
tasks (semantic segmentation, object detection, image classification, depth and
surface normal prediction) using established datasets (e.g., COCO, ImageNet and
its variants, etc).
The main challenges to performing this are: 1) most models are trained to
output text and cannot natively express versatile domains, such as segments or
3D geometry, and 2) many leading models are proprietary and accessible only at
an API level, i.e., there is no weight access to adapt them. We address these
challenges by translating standard vision tasks into equivalent text-promptable
and API-compatible tasks via prompt chaining to create a standardized
benchmarking framework.
We observe that 1) the models are not close to the state-of-the-art
specialist models at any task. However, 2) they are respectable generalists;
this is remarkable as they are presumably trained on primarily image-text-based
tasks. 3) They perform semantic tasks notably better than geometric ones. 4)
While the prompt-chaining techniques affect performance, better models exhibit
less sensitivity to prompt variations. 5) GPT-4o performs the best among
non-reasoning models, securing the top position in 4 out of 6 tasks, 6)
reasoning models, e.g. o3, show improvements in geometric tasks, and 7) a
preliminary analysis of models with native image generation, like the latest
GPT-4o, shows they exhibit quirks like hallucinations and spatial
misalignments.