CharXiv: Het in kaart brengen van tekortkomingen in realistisch diagrambegrip in multimodale LLM's

Samenvatting

Het begrijpen van grafieken speelt een cruciale rol bij het toepassen van Multimodale Grote Taalmodellen (MLLMs) op real-world taken, zoals het analyseren van wetenschappelijke artikelen of financiële rapporten. Bestaande datasets richten zich echter vaak op te vereenvoudigde en homogene grafieken met op sjablonen gebaseerde vragen, wat leidt tot een overdreven optimistische meting van vooruitgang. We tonen aan dat hoewel open-source modellen op deze benchmarks sterker lijken te presteren dan krachtige propriëtaire modellen, een eenvoudige stresstest met iets andere grafieken of vragen de prestaties met wel 34,5% kan doen verslechteren. In dit werk stellen we CharXiv voor, een uitgebreide evaluatiesuite met 2.323 natuurlijke, uitdagende en diverse grafieken uit arXiv-artikelen. CharXiv omvat twee soorten vragen: 1) beschrijvende vragen over het onderzoeken van basiselementen in grafieken en 2) redeneervragen die het synthetiseren van informatie over complexe visuele elementen in de grafiek vereisen. Om de kwaliteit te waarborgen, zijn alle grafieken en vragen handmatig geselecteerd, samengesteld en geverifieerd door menselijke experts. Onze resultaten onthullen een aanzienlijke, voorheen onderschatte kloof tussen de redeneervaardigheden van het sterkste propriëtaire model (d.w.z. GPT-4o), dat een nauwkeurigheid van 47,1% behaalt, en het sterkste open-source model (d.w.z. InternVL Chat V1.5), dat een nauwkeurigheid van 29,2% behaalt. Alle modellen blijven ver achter bij de menselijke prestaties van 80,5%, wat de zwaktes in het grafiekbegrip van bestaande MLLMs benadrukt. We hopen dat CharXiv toekomstig onderzoek naar grafiekbegrip in MLLMs vergemakkelijkt door een realistischer en betrouwbaarder meetinstrument voor vooruitgang te bieden. Projectpagina en leaderboard: https://charxiv.github.io/

English

Chart understanding plays a pivotal role when applying Multimodal Large Language Models (MLLMs) to real-world tasks such as analyzing scientific papers or financial reports. However, existing datasets often focus on oversimplified and homogeneous charts with template-based questions, leading to an over-optimistic measure of progress. We demonstrate that although open-source models can appear to outperform strong proprietary models on these benchmarks, a simple stress test with slightly different charts or questions can deteriorate performance by up to 34.5%. In this work, we propose CharXiv, a comprehensive evaluation suite involving 2,323 natural, challenging, and diverse charts from arXiv papers. CharXiv includes two types of questions: 1) descriptive questions about examining basic chart elements and 2) reasoning questions that require synthesizing information across complex visual elements in the chart. To ensure quality, all charts and questions are handpicked, curated, and verified by human experts. Our results reveal a substantial, previously underestimated gap between the reasoning skills of the strongest proprietary model (i.e., GPT-4o), which achieves 47.1% accuracy, and the strongest open-source model (i.e., InternVL Chat V1.5), which achieves 29.2%. All models lag far behind human performance of 80.5%, underscoring weaknesses in the chart understanding capabilities of existing MLLMs. We hope CharXiv facilitates future research on MLLM chart understanding by providing a more realistic and faithful measure of progress. Project page and leaderboard: https://charxiv.github.io/

CharXiv: Het in kaart brengen van tekortkomingen in realistisch diagrambegrip in multimodale LLM's

CharXiv: Charting Gaps in Realistic Chart Understanding in Multimodal LLMs

Samenvatting

Support