ChatPaper.aiChatPaper

VisOnlyQA : Les grands modèles de vision et de langage ont encore du mal avec la perception visuelle des informations géométriques.

VisOnlyQA: Large Vision Language Models Still Struggle with Visual Perception of Geometric Information

December 1, 2024
Auteurs: Ryo Kamoi, Yusen Zhang, Sarkar Snigdha Sarathi Das, Ranran Haoran Zhang, Rui Zhang
cs.AI

Résumé

Les erreurs de compréhension des informations visuelles dans les images (c'est-à-dire les erreurs de perception visuelle) demeurent une source majeure d'erreurs dans les Grands Modèles de Langage Vision (LVLM). Bien qu'une analyse plus approfondie soit essentielle, il existe une insuffisance de jeux de données pour évaluer la perception visuelle des LVLM. Dans ce travail, nous introduisons VisOnlyQA, un nouveau jeu de données conçu pour évaluer directement les capacités de perception visuelle des LVLM sur des questions portant sur des informations géométriques et numériques dans des figures scientifiques. Notre jeu de données nous permet d'analyser la perception visuelle des LVLM pour des informations visuelles détaillées, indépendamment d'autres capacités telles que le raisonnement. L'ensemble d'évaluation de VisOnlyQA comprend 1 200 questions à choix multiples réparties en 12 tâches sur quatre catégories de figures. Nous fournissons également des données d'entraînement synthétiques comprenant 70 000 exemples. Nos expériences sur VisOnlyQA mettent en évidence les conclusions suivantes : (i) 20 LVLM que nous évaluons, y compris GPT-4o et Gemini 1.5 Pro, fonctionnent mal sur les tâches de perception visuelle dans VisOnlyQA, tandis que les performances humaines sont presque parfaites. (ii) Le fine-tuning sur des données d'entraînement synthétiques démontre le potentiel d'amélioration de la perception visuelle des LVLM, mais les améliorations observées sont limitées à certaines tâches et à des modèles spécifiques. (iii) Des modèles de langage plus puissants améliorent la perception visuelle des LVLM. En résumé, nos expériences suggèrent que à la fois les données d'entraînement et les architectures de modèles devraient être améliorées pour renforcer les capacités de perception visuelle des LVLM. Les jeux de données, le code et les réponses des modèles sont fournis sur https://github.com/psunlpgroup/VisOnlyQA.
English
Errors in understanding visual information in images (i.e., visual perception errors) remain a major source of mistakes in Large Vision Language Models (LVLMs). While further analysis is essential, there is a deficiency in datasets for evaluating the visual perception of LVLMs. In this work, we introduce VisOnlyQA, a new dataset designed to directly evaluate the visual perception capabilities of LVLMs on questions about geometric and numerical information in scientific figures. Our dataset enables us to analyze the visual perception of LVLMs for fine-grained visual information, independent of other capabilities such as reasoning. The evaluation set of VisOnlyQA includes 1,200 multiple-choice questions in 12 tasks on four categories of figures. We also provide synthetic training data consisting of 70k instances. Our experiments on VisOnlyQA highlight the following findings: (i) 20 LVLMs we evaluate, including GPT-4o and Gemini 1.5 Pro, work poorly on the visual perception tasks in VisOnlyQA, while human performance is nearly perfect. (ii) Fine-tuning on synthetic training data demonstrates the potential for enhancing the visual perception of LVLMs, but observed improvements are limited to certain tasks and specific models. (iii) Stronger language models improve the visual perception of LVLMs. In summary, our experiments suggest that both training data and model architectures should be improved to enhance the visual perception capabilities of LVLMs. The datasets, code, and model responses are provided at https://github.com/psunlpgroup/VisOnlyQA.

Summary

AI-Generated Summary

PDF82December 3, 2024