ChatPaper.aiChatPaper

CharXiv: Aufzeigen von Lücken im realistischen Verständnis von Diagrammen in multimodalen LLMs

CharXiv: Charting Gaps in Realistic Chart Understanding in Multimodal LLMs

June 26, 2024
Autoren: Zirui Wang, Mengzhou Xia, Luxi He, Howard Chen, Yitao Liu, Richard Zhu, Kaiqu Liang, Xindi Wu, Haotian Liu, Sadhika Malladi, Alexis Chevalier, Sanjeev Arora, Danqi Chen
cs.AI

Zusammenfassung

Die Verständnis von Diagrammen spielt eine entscheidende Rolle bei der Anwendung von Multimodalen Großen Sprachmodellen (MLLMs) auf reale Aufgaben wie die Analyse wissenschaftlicher Arbeiten oder Finanzberichte. Allerdings konzentrieren sich bestehende Datensätze oft auf zu stark vereinfachte und homogene Diagramme mit Vorlagen-basierten Fragen, was zu einer überoptimistischen Messung des Fortschritts führt. Wir zeigen, dass, obwohl Open-Source-Modelle auf diesen Benchmarks stärker als starke proprietäre Modelle erscheinen können, ein einfacher Belastungstest mit leicht unterschiedlichen Diagrammen oder Fragen die Leistung um bis zu 34,5% verschlechtern kann. In dieser Arbeit schlagen wir CharXiv vor, eine umfassende Bewertungssuite mit 2.323 natürlichen, anspruchsvollen und vielfältigen Diagrammen aus arXiv-Arbeiten. CharXiv umfasst zwei Arten von Fragen: 1) beschreibende Fragen zur Untersuchung grundlegender Diagrammelemente und 2) Schlussfolgerungsfragen, die die Synthese von Informationen über komplexe visuelle Elemente im Diagramm erfordern. Um die Qualität sicherzustellen, werden alle Diagramme und Fragen von menschlichen Experten ausgewählt, kuratiert und überprüft. Unsere Ergebnisse zeigen eine erhebliche, zuvor unterschätzte Kluft zwischen den Schlussfolgerungsfähigkeiten des stärksten proprietären Modells (d. h. GPT-4o), das eine Genauigkeit von 47,1% erreicht, und dem stärksten Open-Source-Modell (d. h. InternVL Chat V1.5), das 29,2% erreicht. Alle Modelle liegen weit hinter der menschlichen Leistung von 80,5% zurück und betonen Schwächen in den Diagrammverständnisfähigkeiten bestehender MLLMs. Wir hoffen, dass CharXiv zukünftige Forschung zum Verständnis von Diagrammen in MLLMs erleichtert, indem es eine realistischere und treuere Messung des Fortschritts bietet. Projektseite und Bestenliste: https://charxiv.github.io/
English
Chart understanding plays a pivotal role when applying Multimodal Large Language Models (MLLMs) to real-world tasks such as analyzing scientific papers or financial reports. However, existing datasets often focus on oversimplified and homogeneous charts with template-based questions, leading to an over-optimistic measure of progress. We demonstrate that although open-source models can appear to outperform strong proprietary models on these benchmarks, a simple stress test with slightly different charts or questions can deteriorate performance by up to 34.5%. In this work, we propose CharXiv, a comprehensive evaluation suite involving 2,323 natural, challenging, and diverse charts from arXiv papers. CharXiv includes two types of questions: 1) descriptive questions about examining basic chart elements and 2) reasoning questions that require synthesizing information across complex visual elements in the chart. To ensure quality, all charts and questions are handpicked, curated, and verified by human experts. Our results reveal a substantial, previously underestimated gap between the reasoning skills of the strongest proprietary model (i.e., GPT-4o), which achieves 47.1% accuracy, and the strongest open-source model (i.e., InternVL Chat V1.5), which achieves 29.2%. All models lag far behind human performance of 80.5%, underscoring weaknesses in the chart understanding capabilities of existing MLLMs. We hope CharXiv facilitates future research on MLLM chart understanding by providing a more realistic and faithful measure of progress. Project page and leaderboard: https://charxiv.github.io/

Summary

AI-Generated Summary

PDF302November 29, 2024