ChartAB : Un benchmark pour l'ancrage et l'alignement dense de graphiques
ChartAB: A Benchmark for Chart Grounding & Dense Alignment
October 30, 2025
papers.authors: Aniruddh Bansal, Davit Soselia, Dang Nguyen, Tianyi Zhou
cs.AI
papers.abstract
Les graphiques jouent un rôle important dans la visualisation, le raisonnement, l'analyse des données et l'échange d'idées entre humains. Cependant, les modèles vision-langage (VLM) existants manquent encore de précision dans la perception des détails et peinent à extraire les structures fines des graphiques. Ces limitations dans l'ancrage des graphiques entravent également leur capacité à comparer plusieurs graphiques et à raisonner à partir de ceux-ci. Dans cet article, nous présentons une nouvelle "ChartAlign Benchmark (ChartAB)" pour fournir une évaluation complète des VLM dans les tâches d'ancrage des graphiques, c'est-à-dire l'extraction de données tabulaires, la localisation d'éléments visuels et la reconnaissance de divers attributs à partir de graphiques de types et de complexités variés. Nous concevons un modèle JSON pour faciliter le calcul de métriques d'évaluation spécifiquement adaptées à chaque tâche d'ancrage. En intégrant un workflow d'inférence en deux étapes innovant, le benchmark peut en outre évaluer la capacité des VLM à aligner et comparer des éléments/attributs entre deux graphiques. Notre analyse des évaluations de plusieurs VLM récents révèle de nouvelles perspectives sur leurs biais de perception, faiblesses, robustesse et hallucinations dans la compréhension des graphiques. Ces résultats mettent en lumière les écarts granulaires entre les VLM dans les tâches de compréhension des graphiques et indiquent les compétences spécifiques qui doivent être renforcées dans les modèles actuels.
English
Charts play an important role in visualization, reasoning, data analysis, and
the exchange of ideas among humans. However, existing vision-language models
(VLMs) still lack accurate perception of details and struggle to extract
fine-grained structures from charts. Such limitations in chart grounding also
hinder their ability to compare multiple charts and reason over them. In this
paper, we introduce a novel "ChartAlign Benchmark (ChartAB)" to provide a
comprehensive evaluation of VLMs in chart grounding tasks, i.e., extracting
tabular data, localizing visualization elements, and recognizing various
attributes from charts of diverse types and complexities. We design a JSON
template to facilitate the calculation of evaluation metrics specifically
tailored for each grounding task. By incorporating a novel two-stage inference
workflow, the benchmark can further evaluate VLMs' capability to align and
compare elements/attributes across two charts. Our analysis of evaluations on
several recent VLMs reveals new insights into their perception biases,
weaknesses, robustness, and hallucinations in chart understanding. These
findings highlight the fine-grained discrepancies among VLMs in chart
understanding tasks and point to specific skills that need to be strengthened
in current models.