CharXiv: Mappatura delle Lacune nella Comprensione Realistica dei Grafici nei Modelli Multimodali di LLM
CharXiv: Charting Gaps in Realistic Chart Understanding in Multimodal LLMs
June 26, 2024
Autori: Zirui Wang, Mengzhou Xia, Luxi He, Howard Chen, Yitao Liu, Richard Zhu, Kaiqu Liang, Xindi Wu, Haotian Liu, Sadhika Malladi, Alexis Chevalier, Sanjeev Arora, Danqi Chen
cs.AI
Abstract
La comprensione dei grafici svolge un ruolo cruciale nell'applicazione dei Modelli Linguistici Multimodali di Grande Scala (MLLMs) a compiti reali come l'analisi di articoli scientifici o rapporti finanziari. Tuttavia, i dataset esistenti si concentrano spesso su grafici eccessivamente semplificati e omogenei con domande basate su modelli, portando a una misurazione eccessivamente ottimistica dei progressi. Dimostriamo che, sebbene i modelli open-source possano sembrare superare i forti modelli proprietari su questi benchmark, un semplice stress test con grafici o domande leggermente diversi può deteriorare le prestazioni fino al 34,5%. In questo lavoro, proponiamo CharXiv, una suite di valutazione completa che coinvolge 2.323 grafici naturali, impegnativi e diversificati tratti da articoli di arXiv. CharXiv include due tipi di domande: 1) domande descrittive sull'esame degli elementi di base del grafico e 2) domande di ragionamento che richiedono la sintesi di informazioni attraverso elementi visivi complessi nel grafico. Per garantire la qualità, tutti i grafici e le domande sono selezionati, curati e verificati manualmente da esperti umani. I nostri risultati rivelano un divario sostanziale e precedentemente sottostimato tra le capacità di ragionamento del più forte modello proprietario (cioè GPT-4o), che raggiunge un'accuratezza del 47,1%, e il più forte modello open-source (cioè InternVL Chat V1.5), che raggiunge il 29,2%. Tutti i modelli sono molto al di sotto delle prestazioni umane dell'80,5%, evidenziando le debolezze nelle capacità di comprensione dei grafici degli attuali MLLMs. Speriamo che CharXiv faciliti la ricerca futura sulla comprensione dei grafici da parte degli MLLMs fornendo una misurazione più realistica e fedele dei progressi. Pagina del progetto e classifica: https://charxiv.github.io/
English
Chart understanding plays a pivotal role when applying Multimodal Large
Language Models (MLLMs) to real-world tasks such as analyzing scientific papers
or financial reports. However, existing datasets often focus on oversimplified
and homogeneous charts with template-based questions, leading to an
over-optimistic measure of progress. We demonstrate that although open-source
models can appear to outperform strong proprietary models on these benchmarks,
a simple stress test with slightly different charts or questions can
deteriorate performance by up to 34.5%. In this work, we propose CharXiv, a
comprehensive evaluation suite involving 2,323 natural, challenging, and
diverse charts from arXiv papers. CharXiv includes two types of questions: 1)
descriptive questions about examining basic chart elements and 2) reasoning
questions that require synthesizing information across complex visual elements
in the chart. To ensure quality, all charts and questions are handpicked,
curated, and verified by human experts. Our results reveal a substantial,
previously underestimated gap between the reasoning skills of the strongest
proprietary model (i.e., GPT-4o), which achieves 47.1% accuracy, and the
strongest open-source model (i.e., InternVL Chat V1.5), which achieves 29.2%.
All models lag far behind human performance of 80.5%, underscoring weaknesses
in the chart understanding capabilities of existing MLLMs. We hope CharXiv
facilitates future research on MLLM chart understanding by providing a more
realistic and faithful measure of progress. Project page and leaderboard:
https://charxiv.github.io/