Насколько хорошо GPT-4o понимает визуальную информацию? Оценка мультимодальных базовых моделей на стандартных задачах компьютерного зрения
How Well Does GPT-4o Understand Vision? Evaluating Multimodal Foundation Models on Standard Computer Vision Tasks
July 2, 2025
Авторы: Rahul Ramachandran, Ali Garjani, Roman Bachmann, Andrei Atanov, Oğuzhan Fatih Kar, Amir Zamir
cs.AI
Аннотация
Мультимодальные базовые модели, такие как GPT-4o, в последнее время достигли значительного прогресса, однако остается неясным, насколько хорошо эти модели понимают визуальную информацию. В данной статье мы оцениваем производительность популярных мультимодальных базовых моделей (GPT-4o, o4-mini, Gemini 1.5 Pro и Gemini 2.0 Flash, Claude 3.5 Sonnet, Qwen2-VL, Llama 3.2) на стандартных задачах компьютерного зрения (семантическая сегментация, обнаружение объектов, классификация изображений, предсказание глубины и нормалей поверхности) с использованием общепринятых наборов данных (например, COCO, ImageNet и их вариантов).
Основные сложности при выполнении этой задачи заключаются в следующем: 1) большинство моделей обучены выдавать текстовые ответы и не могут напрямую выражать разнообразные домены, такие как сегменты или 3D-геометрия, и 2) многие ведущие модели являются проприетарными и доступны только на уровне API, то есть отсутствует доступ к их весам для адаптации. Мы решаем эти проблемы, преобразуя стандартные задачи компьютерного зрения в эквивалентные задачи, которые можно решать с помощью текстовых запросов и API, используя цепочки промптов для создания стандартизированной системы оценки.
Мы наблюдаем, что 1) модели не приближаются к уровню современных специализированных моделей ни в одной из задач. Однако 2) они являются достойными универсальными решениями, что примечательно, учитывая, что они, вероятно, обучены в основном на задачах, связанных с изображениями и текстом. 3) Они справляются с семантическими задачами заметно лучше, чем с геометрическими. 4) Хотя техники цепочек промптов влияют на производительность, более качественные модели демонстрируют меньшую чувствительность к вариациям запросов. 5) GPT-4o показывает наилучшие результаты среди моделей, не использующих рассуждения, занимая первое место в 4 из 6 задач. 6) Модели с поддержкой рассуждений, например o3, показывают улучшения в геометрических задачах. 7) Предварительный анализ моделей с возможностью генерации изображений, таких как последняя версия GPT-4o, выявляет особенности, такие как галлюцинации и пространственные несоответствия.
English
Multimodal foundation models, such as GPT-4o, have recently made remarkable
progress, but it is not clear where exactly these models stand in terms of
understanding vision. In this paper, we benchmark the performance of popular
multimodal foundation models (GPT-4o, o4-mini, Gemini 1.5 Pro and Gemini 2.0
Flash, Claude 3.5 Sonnet, Qwen2-VL, Llama 3.2) on standard computer vision
tasks (semantic segmentation, object detection, image classification, depth and
surface normal prediction) using established datasets (e.g., COCO, ImageNet and
its variants, etc).
The main challenges to performing this are: 1) most models are trained to
output text and cannot natively express versatile domains, such as segments or
3D geometry, and 2) many leading models are proprietary and accessible only at
an API level, i.e., there is no weight access to adapt them. We address these
challenges by translating standard vision tasks into equivalent text-promptable
and API-compatible tasks via prompt chaining to create a standardized
benchmarking framework.
We observe that 1) the models are not close to the state-of-the-art
specialist models at any task. However, 2) they are respectable generalists;
this is remarkable as they are presumably trained on primarily image-text-based
tasks. 3) They perform semantic tasks notably better than geometric ones. 4)
While the prompt-chaining techniques affect performance, better models exhibit
less sensitivity to prompt variations. 5) GPT-4o performs the best among
non-reasoning models, securing the top position in 4 out of 6 tasks, 6)
reasoning models, e.g. o3, show improvements in geometric tasks, and 7) a
preliminary analysis of models with native image generation, like the latest
GPT-4o, shows they exhibit quirks like hallucinations and spatial
misalignments.