VisOnlyQA: Grote visie-taalmodellen hebben nog steeds moeite met de visuele perceptie van geometrische informatie.
VisOnlyQA: Large Vision Language Models Still Struggle with Visual Perception of Geometric Information
December 1, 2024
Auteurs: Ryo Kamoi, Yusen Zhang, Sarkar Snigdha Sarathi Das, Ranran Haoran Zhang, Rui Zhang
cs.AI
Samenvatting
Fouten in het begrijpen van visuele informatie in afbeeldingen (d.w.z. visuele perceptiefouten) blijven een belangrijke bron van fouten in Grote Vision Language Modellen (GVLM's). Hoewel verder onderzoek essentieel is, is er een tekort aan datasets voor het evalueren van de visuele perceptie van GVLM's. In dit werk introduceren we VisOnlyQA, een nieuwe dataset die is ontworpen om de visuele perceptiecapaciteiten van GVLM's rechtstreeks te evalueren aan de hand van vragen over geometrische en numerieke informatie in wetenschappelijke figuren. Onze dataset stelt ons in staat om de visuele perceptie van GVLM's te analyseren voor gedetailleerde visuele informatie, onafhankelijk van andere capaciteiten zoals redeneren. De evaluatieset van VisOnlyQA bevat 1.200 meerkeuzevragen in 12 taken over vier categorieën figuren. We bieden ook synthetische trainingsgegevens bestaande uit 70k instanties. Onze experimenten met VisOnlyQA benadrukken de volgende bevindingen: (i) 20 GVLM's die we evalueren, waaronder GPT-4o en Gemini 1.5 Pro, presteren slecht op de visuele perceptietaken in VisOnlyQA, terwijl de menselijke prestatie bijna perfect is. (ii) Fijnafstemming op synthetische trainingsgegevens toont het potentieel aan voor het verbeteren van de visuele perceptie van GVLM's, maar waargenomen verbeteringen zijn beperkt tot bepaalde taken en specifieke modellen. (iii) Sterkere taalmodellen verbeteren de visuele perceptie van GVLM's. Samengevat suggereren onze experimenten dat zowel trainingsgegevens als modelarchitecturen verbeterd moeten worden om de visuele perceptiecapaciteiten van GVLM's te verbeteren. De datasets, code en modelreacties zijn beschikbaar op https://github.com/psunlpgroup/VisOnlyQA.
English
Errors in understanding visual information in images (i.e., visual perception
errors) remain a major source of mistakes in Large Vision Language Models
(LVLMs). While further analysis is essential, there is a deficiency in datasets
for evaluating the visual perception of LVLMs. In this work, we introduce
VisOnlyQA, a new dataset designed to directly evaluate the visual perception
capabilities of LVLMs on questions about geometric and numerical information in
scientific figures. Our dataset enables us to analyze the visual perception of
LVLMs for fine-grained visual information, independent of other capabilities
such as reasoning. The evaluation set of VisOnlyQA includes 1,200
multiple-choice questions in 12 tasks on four categories of figures. We also
provide synthetic training data consisting of 70k instances. Our experiments on
VisOnlyQA highlight the following findings: (i) 20 LVLMs we evaluate, including
GPT-4o and Gemini 1.5 Pro, work poorly on the visual perception tasks in
VisOnlyQA, while human performance is nearly perfect. (ii) Fine-tuning on
synthetic training data demonstrates the potential for enhancing the visual
perception of LVLMs, but observed improvements are limited to certain tasks and
specific models. (iii) Stronger language models improve the visual perception
of LVLMs. In summary, our experiments suggest that both training data and model
architectures should be improved to enhance the visual perception capabilities
of LVLMs. The datasets, code, and model responses are provided at
https://github.com/psunlpgroup/VisOnlyQA.