CharXiv: Het in kaart brengen van tekortkomingen in realistisch diagrambegrip in multimodale LLM's
CharXiv: Charting Gaps in Realistic Chart Understanding in Multimodal LLMs
June 26, 2024
Auteurs: Zirui Wang, Mengzhou Xia, Luxi He, Howard Chen, Yitao Liu, Richard Zhu, Kaiqu Liang, Xindi Wu, Haotian Liu, Sadhika Malladi, Alexis Chevalier, Sanjeev Arora, Danqi Chen
cs.AI
Samenvatting
Het begrijpen van grafieken speelt een cruciale rol bij het toepassen van Multimodale Grote Taalmodellen (MLLMs) op real-world taken, zoals het analyseren van wetenschappelijke artikelen of financiële rapporten. Bestaande datasets richten zich echter vaak op te vereenvoudigde en homogene grafieken met op sjablonen gebaseerde vragen, wat leidt tot een overdreven optimistische meting van vooruitgang. We tonen aan dat hoewel open-source modellen op deze benchmarks sterker lijken te presteren dan krachtige propriëtaire modellen, een eenvoudige stresstest met iets andere grafieken of vragen de prestaties met wel 34,5% kan doen verslechteren. In dit werk stellen we CharXiv voor, een uitgebreide evaluatiesuite met 2.323 natuurlijke, uitdagende en diverse grafieken uit arXiv-artikelen. CharXiv omvat twee soorten vragen: 1) beschrijvende vragen over het onderzoeken van basiselementen in grafieken en 2) redeneervragen die het synthetiseren van informatie over complexe visuele elementen in de grafiek vereisen. Om de kwaliteit te waarborgen, zijn alle grafieken en vragen handmatig geselecteerd, samengesteld en geverifieerd door menselijke experts. Onze resultaten onthullen een aanzienlijke, voorheen onderschatte kloof tussen de redeneervaardigheden van het sterkste propriëtaire model (d.w.z. GPT-4o), dat een nauwkeurigheid van 47,1% behaalt, en het sterkste open-source model (d.w.z. InternVL Chat V1.5), dat een nauwkeurigheid van 29,2% behaalt. Alle modellen blijven ver achter bij de menselijke prestaties van 80,5%, wat de zwaktes in het grafiekbegrip van bestaande MLLMs benadrukt. We hopen dat CharXiv toekomstig onderzoek naar grafiekbegrip in MLLMs vergemakkelijkt door een realistischer en betrouwbaarder meetinstrument voor vooruitgang te bieden. Projectpagina en leaderboard: https://charxiv.github.io/
English
Chart understanding plays a pivotal role when applying Multimodal Large
Language Models (MLLMs) to real-world tasks such as analyzing scientific papers
or financial reports. However, existing datasets often focus on oversimplified
and homogeneous charts with template-based questions, leading to an
over-optimistic measure of progress. We demonstrate that although open-source
models can appear to outperform strong proprietary models on these benchmarks,
a simple stress test with slightly different charts or questions can
deteriorate performance by up to 34.5%. In this work, we propose CharXiv, a
comprehensive evaluation suite involving 2,323 natural, challenging, and
diverse charts from arXiv papers. CharXiv includes two types of questions: 1)
descriptive questions about examining basic chart elements and 2) reasoning
questions that require synthesizing information across complex visual elements
in the chart. To ensure quality, all charts and questions are handpicked,
curated, and verified by human experts. Our results reveal a substantial,
previously underestimated gap between the reasoning skills of the strongest
proprietary model (i.e., GPT-4o), which achieves 47.1% accuracy, and the
strongest open-source model (i.e., InternVL Chat V1.5), which achieves 29.2%.
All models lag far behind human performance of 80.5%, underscoring weaknesses
in the chart understanding capabilities of existing MLLMs. We hope CharXiv
facilitates future research on MLLM chart understanding by providing a more
realistic and faithful measure of progress. Project page and leaderboard:
https://charxiv.github.io/