ChartAB: Een Benchmark voor Chart Gronding en Dichte Aligning
ChartAB: A Benchmark for Chart Grounding & Dense Alignment
October 30, 2025
Auteurs: Aniruddh Bansal, Davit Soselia, Dang Nguyen, Tianyi Zhou
cs.AI
Samenvatting
Grafieken spelen een belangrijke rol bij visualisatie, redenering, data-analyse en de uitwisseling van ideeën tussen mensen. Bestaande vision-language modellen (VLMs) hebben echter nog steeds moeite met het nauwkeurig waarnemen van details en het extraheren van fijnmazige structuren uit grafieken. Deze beperkingen in het grondslagbegrip van grafieken belemmeren ook hun vermogen om meerdere grafieken te vergelijken en erover te redeneren. In dit artikel introduceren we een nieuwe "ChartAlign Benchmark (ChartAB)" om een uitgebreide evaluatie van VLMs te bieden bij taken voor grafiek-grondslag, zoals het extraheren van tabelgegevens, het lokaliseren van visualisatie-elementen en het herkennen van verschillende attributen uit grafieken van uiteenlopende typen en complexiteit. We ontwerpen een JSON-sjabloon om de berekening van evaluatiemetrices te vergemakkelijken die specifiek zijn toegesneden op elke grondslagtaak. Door een nieuwe tweestaps inferentie-workflow te incorporeren, kan de benchmark verder het vermogen van VLMs evalueren om elementen/attributen tussen twee grafieken uit te lijnen en te vergelijken. Onze analyse van evaluaties van verschillende recente VLMs onthult nieuwe inzichten in hun perceptie-vooroordelen, zwaktes, robuustheid en hallucinaties bij het begrijpen van grafieken. Deze bevindingen belichten de fijnmazige discrepanties tussen VLMs bij taken voor grafiekbegrip en wijzen op specifieke vaardigheden die in huidige modellen versterkt moeten worden.
English
Charts play an important role in visualization, reasoning, data analysis, and
the exchange of ideas among humans. However, existing vision-language models
(VLMs) still lack accurate perception of details and struggle to extract
fine-grained structures from charts. Such limitations in chart grounding also
hinder their ability to compare multiple charts and reason over them. In this
paper, we introduce a novel "ChartAlign Benchmark (ChartAB)" to provide a
comprehensive evaluation of VLMs in chart grounding tasks, i.e., extracting
tabular data, localizing visualization elements, and recognizing various
attributes from charts of diverse types and complexities. We design a JSON
template to facilitate the calculation of evaluation metrics specifically
tailored for each grounding task. By incorporating a novel two-stage inference
workflow, the benchmark can further evaluate VLMs' capability to align and
compare elements/attributes across two charts. Our analysis of evaluations on
several recent VLMs reveals new insights into their perception biases,
weaknesses, robustness, and hallucinations in chart understanding. These
findings highlight the fine-grained discrepancies among VLMs in chart
understanding tasks and point to specific skills that need to be strengthened
in current models.