VisOnlyQA: Modelos de Linguagem de Visão Grande Ainda Enfrentam Dificuldades com a Percepção Visual de Informações Geométricas
VisOnlyQA: Large Vision Language Models Still Struggle with Visual Perception of Geometric Information
December 1, 2024
Autores: Ryo Kamoi, Yusen Zhang, Sarkar Snigdha Sarathi Das, Ranran Haoran Zhang, Rui Zhang
cs.AI
Resumo
Erros na compreensão de informações visuais em imagens (ou seja, erros de percepção visual) continuam sendo uma fonte importante de equívocos em Modelos de Linguagem de Visão Ampliada (LVLMs). Enquanto uma análise mais aprofundada é essencial, há uma deficiência em conjuntos de dados para avaliar a percepção visual dos LVLMs. Neste trabalho, apresentamos o VisOnlyQA, um novo conjunto de dados projetado para avaliar diretamente as capacidades de percepção visual dos LVLMs em perguntas sobre informações geométricas e numéricas em figuras científicas. Nosso conjunto de dados nos permite analisar a percepção visual dos LVLMs para informações visuais detalhadas, independentemente de outras capacidades, como raciocínio. O conjunto de avaliação do VisOnlyQA inclui 1.200 perguntas de múltipla escolha em 12 tarefas em quatro categorias de figuras. Também fornecemos dados de treinamento sintéticos compostos por 70 mil instâncias. Nossos experimentos no VisOnlyQA destacam as seguintes descobertas: (i) 20 LVLMs que avaliamos, incluindo GPT-4o e Gemini 1.5 Pro, têm um desempenho ruim nas tarefas de percepção visual no VisOnlyQA, enquanto o desempenho humano é quase perfeito. (ii) O ajuste fino nos dados de treinamento sintéticos demonstra o potencial para aprimorar a percepção visual dos LVLMs, mas as melhorias observadas são limitadas a determinadas tarefas e modelos específicos. (iii) Modelos de linguagem mais robustos melhoram a percepção visual dos LVLMs. Em resumo, nossos experimentos sugerem que tanto os dados de treinamento quanto as arquiteturas de modelo devem ser aprimorados para melhorar as capacidades de percepção visual dos LVLMs. Os conjuntos de dados, código e respostas do modelo estão disponíveis em https://github.com/psunlpgroup/VisOnlyQA.
English
Errors in understanding visual information in images (i.e., visual perception
errors) remain a major source of mistakes in Large Vision Language Models
(LVLMs). While further analysis is essential, there is a deficiency in datasets
for evaluating the visual perception of LVLMs. In this work, we introduce
VisOnlyQA, a new dataset designed to directly evaluate the visual perception
capabilities of LVLMs on questions about geometric and numerical information in
scientific figures. Our dataset enables us to analyze the visual perception of
LVLMs for fine-grained visual information, independent of other capabilities
such as reasoning. The evaluation set of VisOnlyQA includes 1,200
multiple-choice questions in 12 tasks on four categories of figures. We also
provide synthetic training data consisting of 70k instances. Our experiments on
VisOnlyQA highlight the following findings: (i) 20 LVLMs we evaluate, including
GPT-4o and Gemini 1.5 Pro, work poorly on the visual perception tasks in
VisOnlyQA, while human performance is nearly perfect. (ii) Fine-tuning on
synthetic training data demonstrates the potential for enhancing the visual
perception of LVLMs, but observed improvements are limited to certain tasks and
specific models. (iii) Stronger language models improve the visual perception
of LVLMs. In summary, our experiments suggest that both training data and model
architectures should be improved to enhance the visual perception capabilities
of LVLMs. The datasets, code, and model responses are provided at
https://github.com/psunlpgroup/VisOnlyQA.Summary
AI-Generated Summary