ChatPaper.aiChatPaper

ChartAB: Een Benchmark voor Chart Gronding en Dichte Aligning

ChartAB: A Benchmark for Chart Grounding & Dense Alignment

October 30, 2025
Auteurs: Aniruddh Bansal, Davit Soselia, Dang Nguyen, Tianyi Zhou
cs.AI

Samenvatting

Grafieken spelen een belangrijke rol bij visualisatie, redenering, data-analyse en de uitwisseling van ideeën tussen mensen. Bestaande vision-language modellen (VLMs) hebben echter nog steeds moeite met het nauwkeurig waarnemen van details en het extraheren van fijnmazige structuren uit grafieken. Deze beperkingen in het grondslagbegrip van grafieken belemmeren ook hun vermogen om meerdere grafieken te vergelijken en erover te redeneren. In dit artikel introduceren we een nieuwe "ChartAlign Benchmark (ChartAB)" om een uitgebreide evaluatie van VLMs te bieden bij taken voor grafiek-grondslag, zoals het extraheren van tabelgegevens, het lokaliseren van visualisatie-elementen en het herkennen van verschillende attributen uit grafieken van uiteenlopende typen en complexiteit. We ontwerpen een JSON-sjabloon om de berekening van evaluatiemetrices te vergemakkelijken die specifiek zijn toegesneden op elke grondslagtaak. Door een nieuwe tweestaps inferentie-workflow te incorporeren, kan de benchmark verder het vermogen van VLMs evalueren om elementen/attributen tussen twee grafieken uit te lijnen en te vergelijken. Onze analyse van evaluaties van verschillende recente VLMs onthult nieuwe inzichten in hun perceptie-vooroordelen, zwaktes, robuustheid en hallucinaties bij het begrijpen van grafieken. Deze bevindingen belichten de fijnmazige discrepanties tussen VLMs bij taken voor grafiekbegrip en wijzen op specifieke vaardigheden die in huidige modellen versterkt moeten worden.
English
Charts play an important role in visualization, reasoning, data analysis, and the exchange of ideas among humans. However, existing vision-language models (VLMs) still lack accurate perception of details and struggle to extract fine-grained structures from charts. Such limitations in chart grounding also hinder their ability to compare multiple charts and reason over them. In this paper, we introduce a novel "ChartAlign Benchmark (ChartAB)" to provide a comprehensive evaluation of VLMs in chart grounding tasks, i.e., extracting tabular data, localizing visualization elements, and recognizing various attributes from charts of diverse types and complexities. We design a JSON template to facilitate the calculation of evaluation metrics specifically tailored for each grounding task. By incorporating a novel two-stage inference workflow, the benchmark can further evaluate VLMs' capability to align and compare elements/attributes across two charts. Our analysis of evaluations on several recent VLMs reveals new insights into their perception biases, weaknesses, robustness, and hallucinations in chart understanding. These findings highlight the fine-grained discrepancies among VLMs in chart understanding tasks and point to specific skills that need to be strengthened in current models.
PDF01December 2, 2025