VisOnlyQA: Los Modelos de Lenguaje de Visión Grande Siguen Teniendo Problemas con la Percepción Visual de la Información Geométrica
VisOnlyQA: Large Vision Language Models Still Struggle with Visual Perception of Geometric Information
December 1, 2024
Autores: Ryo Kamoi, Yusen Zhang, Sarkar Snigdha Sarathi Das, Ranran Haoran Zhang, Rui Zhang
cs.AI
Resumen
Los errores en la comprensión de la información visual en imágenes (es decir, errores de percepción visual) siguen siendo una fuente importante de errores en los Modelos de Lenguaje de Visión Amplia (LVLMs). Si bien es esencial un análisis más profundo, existe una deficiencia en los conjuntos de datos para evaluar la percepción visual de los LVLMs. En este trabajo, presentamos VisOnlyQA, un nuevo conjunto de datos diseñado para evaluar directamente las capacidades de percepción visual de los LVLMs en preguntas sobre información geométrica y numérica en figuras científicas. Nuestro conjunto de datos nos permite analizar la percepción visual de los LVLMs para información visual detallada, independientemente de otras capacidades como el razonamiento. El conjunto de evaluación de VisOnlyQA incluye 1,200 preguntas de opción múltiple en 12 tareas sobre cuatro categorías de figuras. También proporcionamos datos de entrenamiento sintéticos que consisten en 70k instancias. Nuestros experimentos en VisOnlyQA resaltan los siguientes hallazgos: (i) 20 LVLMs que evaluamos, incluidos GPT-4o y Gemini 1.5 Pro, funcionan mal en las tareas de percepción visual en VisOnlyQA, mientras que el rendimiento humano es casi perfecto. (ii) El ajuste fino en datos de entrenamiento sintéticos demuestra el potencial para mejorar la percepción visual de los LVLMs, pero las mejoras observadas están limitadas a ciertas tareas y modelos específicos. (iii) Modelos de lenguaje más sólidos mejoran la percepción visual de los LVLMs. En resumen, nuestros experimentos sugieren que tanto los datos de entrenamiento como las arquitecturas de modelos deben mejorarse para potenciar las capacidades de percepción visual de los LVLMs. Los conjuntos de datos, código y respuestas del modelo se proporcionan en https://github.com/psunlpgroup/VisOnlyQA.
English
Errors in understanding visual information in images (i.e., visual perception
errors) remain a major source of mistakes in Large Vision Language Models
(LVLMs). While further analysis is essential, there is a deficiency in datasets
for evaluating the visual perception of LVLMs. In this work, we introduce
VisOnlyQA, a new dataset designed to directly evaluate the visual perception
capabilities of LVLMs on questions about geometric and numerical information in
scientific figures. Our dataset enables us to analyze the visual perception of
LVLMs for fine-grained visual information, independent of other capabilities
such as reasoning. The evaluation set of VisOnlyQA includes 1,200
multiple-choice questions in 12 tasks on four categories of figures. We also
provide synthetic training data consisting of 70k instances. Our experiments on
VisOnlyQA highlight the following findings: (i) 20 LVLMs we evaluate, including
GPT-4o and Gemini 1.5 Pro, work poorly on the visual perception tasks in
VisOnlyQA, while human performance is nearly perfect. (ii) Fine-tuning on
synthetic training data demonstrates the potential for enhancing the visual
perception of LVLMs, but observed improvements are limited to certain tasks and
specific models. (iii) Stronger language models improve the visual perception
of LVLMs. In summary, our experiments suggest that both training data and model
architectures should be improved to enhance the visual perception capabilities
of LVLMs. The datasets, code, and model responses are provided at
https://github.com/psunlpgroup/VisOnlyQA.Summary
AI-Generated Summary