VisOnlyQA: Große Vision-Sprach-Modelle haben immer noch Schwierigkeiten mit der visuellen Wahrnehmung geometrischer Informationen.
VisOnlyQA: Large Vision Language Models Still Struggle with Visual Perception of Geometric Information
December 1, 2024
Autoren: Ryo Kamoi, Yusen Zhang, Sarkar Snigdha Sarathi Das, Ranran Haoran Zhang, Rui Zhang
cs.AI
Zusammenfassung
Fehler beim Verständnis visueller Informationen in Bildern (d.h. visuelle Wahrnehmungsfehler) bleiben eine Hauptursache für Fehler in großen Sprach- und Bildmodellen (LVLMs). Während eine weitere Analyse unerlässlich ist, besteht ein Mangel an Datensätzen zur Bewertung der visuellen Wahrnehmung von LVLMs. In dieser Arbeit stellen wir VisOnlyQA vor, einen neuen Datensatz, der entwickelt wurde, um die visuellen Wahrnehmungsfähigkeiten von LVLMs direkt anhand von Fragen zu geometrischen und numerischen Informationen in wissenschaftlichen Abbildungen zu bewerten. Unser Datensatz ermöglicht es uns, die visuelle Wahrnehmung von LVLMs für feinkörnige visuelle Informationen zu analysieren, unabhängig von anderen Fähigkeiten wie dem Schlussfolgern. Der Auswertungssatz von VisOnlyQA umfasst 1.200 Multiple-Choice-Fragen in 12 Aufgaben zu vier Kategorien von Abbildungen. Wir stellen auch synthetische Trainingsdaten zur Verfügung, die aus 70.000 Instanzen bestehen. Unsere Experimente mit VisOnlyQA heben folgende Ergebnisse hervor: (i) 20 von uns bewertete LVLMs, einschließlich GPT-4o und Gemini 1.5 Pro, arbeiten schlecht bei den visuellen Wahrnehmungsaufgaben in VisOnlyQA, während die menschliche Leistung nahezu perfekt ist. (ii) Das Feinabstimmen an synthetischen Trainingsdaten zeigt das Potenzial zur Verbesserung der visuellen Wahrnehmung von LVLMs auf, jedoch sind beobachtete Verbesserungen auf bestimmte Aufgaben und spezifische Modelle beschränkt. (iii) Stärkere Sprachmodelle verbessern die visuelle Wahrnehmung von LVLMs. Zusammenfassend legen unsere Experimente nahe, dass sowohl Trainingsdaten als auch Modellarchitekturen verbessert werden sollten, um die visuellen Wahrnehmungsfähigkeiten von LVLMs zu stärken. Die Datensätze, der Code und die Modellantworten sind unter https://github.com/psunlpgroup/VisOnlyQA verfügbar.
English
Errors in understanding visual information in images (i.e., visual perception
errors) remain a major source of mistakes in Large Vision Language Models
(LVLMs). While further analysis is essential, there is a deficiency in datasets
for evaluating the visual perception of LVLMs. In this work, we introduce
VisOnlyQA, a new dataset designed to directly evaluate the visual perception
capabilities of LVLMs on questions about geometric and numerical information in
scientific figures. Our dataset enables us to analyze the visual perception of
LVLMs for fine-grained visual information, independent of other capabilities
such as reasoning. The evaluation set of VisOnlyQA includes 1,200
multiple-choice questions in 12 tasks on four categories of figures. We also
provide synthetic training data consisting of 70k instances. Our experiments on
VisOnlyQA highlight the following findings: (i) 20 LVLMs we evaluate, including
GPT-4o and Gemini 1.5 Pro, work poorly on the visual perception tasks in
VisOnlyQA, while human performance is nearly perfect. (ii) Fine-tuning on
synthetic training data demonstrates the potential for enhancing the visual
perception of LVLMs, but observed improvements are limited to certain tasks and
specific models. (iii) Stronger language models improve the visual perception
of LVLMs. In summary, our experiments suggest that both training data and model
architectures should be improved to enhance the visual perception capabilities
of LVLMs. The datasets, code, and model responses are provided at
https://github.com/psunlpgroup/VisOnlyQA.Summary
AI-Generated Summary