ChatPaper.aiChatPaper

ChartAB: Un Benchmark per il Grounding di Grafici e l'Allineamento Denso

ChartAB: A Benchmark for Chart Grounding & Dense Alignment

October 30, 2025
Autori: Aniruddh Bansal, Davit Soselia, Dang Nguyen, Tianyi Zhou
cs.AI

Abstract

I grafici svolgono un ruolo importante nella visualizzazione, nel ragionamento, nell'analisi dei dati e nello scambio di idee tra esseri umani. Tuttavia, i modelli visione-linguaggio (VLM) esistenti mostrano ancora una percezione imprecisa dei dettagli e faticano a estrarre strutture granulari dai grafici. Tali limitazioni nella comprensione dei grafici ne ostacolano anche la capacità di confrontare più grafici e di ragionare su di essi. In questo articolo, introduciamo un nuovo "ChartAlign Benchmark (ChartAB)" per fornire una valutazione completa dei VLM nei compiti di comprensione dei grafici, ovvero l'estrazione di dati tabellari, la localizzazione di elementi visivi e il riconoscimento di vari attributi da grafici di diversi tipi e complessità. Progettiamo un template JSON per facilitare il calcolo di metriche di valutazione specificamente studiate per ogni compito di comprensione. Incorporando un innovativo workflow inferenziale a due stadi, il benchmark può inoltre valutare la capacità dei VLM di allineare e confrontare elementi/attributi tra due grafici. La nostra analisi delle valutazioni su diversi VLM recenti rivela nuove intuizioni sui loro bias percettivi, punti deboli, robustezza e allucinazioni nella comprensione dei grafici. Questi risultati evidenziano le discrepanze granulari tra i VLM nei compiti di comprensione dei grafici e indicano specifiche abilità che necessitano di essere potenziate nei modelli attuali.
English
Charts play an important role in visualization, reasoning, data analysis, and the exchange of ideas among humans. However, existing vision-language models (VLMs) still lack accurate perception of details and struggle to extract fine-grained structures from charts. Such limitations in chart grounding also hinder their ability to compare multiple charts and reason over them. In this paper, we introduce a novel "ChartAlign Benchmark (ChartAB)" to provide a comprehensive evaluation of VLMs in chart grounding tasks, i.e., extracting tabular data, localizing visualization elements, and recognizing various attributes from charts of diverse types and complexities. We design a JSON template to facilitate the calculation of evaluation metrics specifically tailored for each grounding task. By incorporating a novel two-stage inference workflow, the benchmark can further evaluate VLMs' capability to align and compare elements/attributes across two charts. Our analysis of evaluations on several recent VLMs reveals new insights into their perception biases, weaknesses, robustness, and hallucinations in chart understanding. These findings highlight the fine-grained discrepancies among VLMs in chart understanding tasks and point to specific skills that need to be strengthened in current models.
PDF01December 2, 2025