ChatPaper.aiChatPaper

VisOnlyQA: Grote visie-taalmodellen hebben nog steeds moeite met de visuele perceptie van geometrische informatie.

VisOnlyQA: Large Vision Language Models Still Struggle with Visual Perception of Geometric Information

December 1, 2024
Auteurs: Ryo Kamoi, Yusen Zhang, Sarkar Snigdha Sarathi Das, Ranran Haoran Zhang, Rui Zhang
cs.AI

Samenvatting

Fouten in het begrijpen van visuele informatie in afbeeldingen (d.w.z. visuele perceptiefouten) blijven een belangrijke bron van fouten in Grote Vision Language Modellen (GVLM's). Hoewel verder onderzoek essentieel is, is er een tekort aan datasets voor het evalueren van de visuele perceptie van GVLM's. In dit werk introduceren we VisOnlyQA, een nieuwe dataset die is ontworpen om de visuele perceptiecapaciteiten van GVLM's rechtstreeks te evalueren aan de hand van vragen over geometrische en numerieke informatie in wetenschappelijke figuren. Onze dataset stelt ons in staat om de visuele perceptie van GVLM's te analyseren voor gedetailleerde visuele informatie, onafhankelijk van andere capaciteiten zoals redeneren. De evaluatieset van VisOnlyQA bevat 1.200 meerkeuzevragen in 12 taken over vier categorieën figuren. We bieden ook synthetische trainingsgegevens bestaande uit 70k instanties. Onze experimenten met VisOnlyQA benadrukken de volgende bevindingen: (i) 20 GVLM's die we evalueren, waaronder GPT-4o en Gemini 1.5 Pro, presteren slecht op de visuele perceptietaken in VisOnlyQA, terwijl de menselijke prestatie bijna perfect is. (ii) Fijnafstemming op synthetische trainingsgegevens toont het potentieel aan voor het verbeteren van de visuele perceptie van GVLM's, maar waargenomen verbeteringen zijn beperkt tot bepaalde taken en specifieke modellen. (iii) Sterkere taalmodellen verbeteren de visuele perceptie van GVLM's. Samengevat suggereren onze experimenten dat zowel trainingsgegevens als modelarchitecturen verbeterd moeten worden om de visuele perceptiecapaciteiten van GVLM's te verbeteren. De datasets, code en modelreacties zijn beschikbaar op https://github.com/psunlpgroup/VisOnlyQA.
English
Errors in understanding visual information in images (i.e., visual perception errors) remain a major source of mistakes in Large Vision Language Models (LVLMs). While further analysis is essential, there is a deficiency in datasets for evaluating the visual perception of LVLMs. In this work, we introduce VisOnlyQA, a new dataset designed to directly evaluate the visual perception capabilities of LVLMs on questions about geometric and numerical information in scientific figures. Our dataset enables us to analyze the visual perception of LVLMs for fine-grained visual information, independent of other capabilities such as reasoning. The evaluation set of VisOnlyQA includes 1,200 multiple-choice questions in 12 tasks on four categories of figures. We also provide synthetic training data consisting of 70k instances. Our experiments on VisOnlyQA highlight the following findings: (i) 20 LVLMs we evaluate, including GPT-4o and Gemini 1.5 Pro, work poorly on the visual perception tasks in VisOnlyQA, while human performance is nearly perfect. (ii) Fine-tuning on synthetic training data demonstrates the potential for enhancing the visual perception of LVLMs, but observed improvements are limited to certain tasks and specific models. (iii) Stronger language models improve the visual perception of LVLMs. In summary, our experiments suggest that both training data and model architectures should be improved to enhance the visual perception capabilities of LVLMs. The datasets, code, and model responses are provided at https://github.com/psunlpgroup/VisOnlyQA.
PDF82December 3, 2024