VisOnlyQA: Большие модели языка и зрения все еще испытывают трудности с визуальным восприятием геометрической информации.
VisOnlyQA: Large Vision Language Models Still Struggle with Visual Perception of Geometric Information
December 1, 2024
Авторы: Ryo Kamoi, Yusen Zhang, Sarkar Snigdha Sarathi Das, Ranran Haoran Zhang, Rui Zhang
cs.AI
Аннотация
Ошибки в понимании визуальной информации на изображениях (т.е. ошибки в визуальном восприятии) остаются основным источником ошибок в больших моделях языка и зрения (LVLMs). Хотя дальнейший анализ необходим, существует недостаток наборов данных для оценки визуального восприятия LVLMs. В данной работе мы представляем VisOnlyQA, новый набор данных, разработанный для прямой оценки возможностей визуального восприятия LVLMs на вопросы о геометрической и числовой информации в научных фигурах. Наш набор данных позволяет нам анализировать визуальное восприятие LVLMs для детализированной визуальной информации, независимо от других способностей, таких как рассуждение. Оценочный набор VisOnlyQA включает 1,200 вопросов с выбором ответа по 12 задачам в четырех категориях фигур. Мы также предоставляем синтетические обучающие данные, состоящие из 70 тыс. экземпляров. Наши эксперименты на VisOnlyQA выявляют следующие результаты: (i) 20 LVLMs, которые мы оцениваем, включая GPT-4o и Gemini 1.5 Pro, плохо справляются с задачами визуального восприятия в VisOnlyQA, в то время как человеческая производительность практически идеальна. (ii) Настройка на синтетических обучающих данных демонстрирует потенциал для улучшения визуального восприятия LVLMs, однако наблюдаемые улучшения ограничены определенными задачами и конкретными моделями. (iii) Более сильные языковые модели улучшают визуальное восприятие LVLMs. В заключение, наши эксперименты подтверждают, что как данные для обучения, так и архитектуры моделей следует улучшить для повышения возможностей визуального восприятия LVLMs. Наборы данных, код и ответы моделей предоставлены на https://github.com/psunlpgroup/VisOnlyQA.
English
Errors in understanding visual information in images (i.e., visual perception
errors) remain a major source of mistakes in Large Vision Language Models
(LVLMs). While further analysis is essential, there is a deficiency in datasets
for evaluating the visual perception of LVLMs. In this work, we introduce
VisOnlyQA, a new dataset designed to directly evaluate the visual perception
capabilities of LVLMs on questions about geometric and numerical information in
scientific figures. Our dataset enables us to analyze the visual perception of
LVLMs for fine-grained visual information, independent of other capabilities
such as reasoning. The evaluation set of VisOnlyQA includes 1,200
multiple-choice questions in 12 tasks on four categories of figures. We also
provide synthetic training data consisting of 70k instances. Our experiments on
VisOnlyQA highlight the following findings: (i) 20 LVLMs we evaluate, including
GPT-4o and Gemini 1.5 Pro, work poorly on the visual perception tasks in
VisOnlyQA, while human performance is nearly perfect. (ii) Fine-tuning on
synthetic training data demonstrates the potential for enhancing the visual
perception of LVLMs, but observed improvements are limited to certain tasks and
specific models. (iii) Stronger language models improve the visual perception
of LVLMs. In summary, our experiments suggest that both training data and model
architectures should be improved to enhance the visual perception capabilities
of LVLMs. The datasets, code, and model responses are provided at
https://github.com/psunlpgroup/VisOnlyQA.Summary
AI-Generated Summary