ChartAB: Ein Benchmark für Chart-Verankerung und dichte Ausrichtung
ChartAB: A Benchmark for Chart Grounding & Dense Alignment
October 30, 2025
papers.authors: Aniruddh Bansal, Davit Soselia, Dang Nguyen, Tianyi Zhou
cs.AI
papers.abstract
Diagramme spielen eine wichtige Rolle bei der Visualisierung, dem Schlussfolgern, der Datenanalyse und dem Austausch von Ideen zwischen Menschen. Allerdings fehlt existierenden Vision-Language-Modellen (VLMs) nach wie vor eine präzise Wahrnehmung von Details, und sie haben Schwierigkeiten, feinkörnige Strukturen aus Diagrammen zu extrahieren. Diese Einschränkungen bei der Diagrammverankerung beeinträchtigen ebenfalls ihre Fähigkeit, mehrere Diagramme zu vergleichen und darüber zu schlussfolgern. In diesem Artikel stellen wir einen neuartigen "ChartAlign Benchmark (ChartAB)" vor, um eine umfassende Evaluation von VLMs in Diagrammverankerungsaufgaben zu ermöglichen, d.h. beim Extrahieren tabellarischer Daten, beim Lokalisieren von Visualisierungselementen und beim Erkennen verschiedener Attribute aus Diagrammen unterschiedlicher Typen und Komplexität. Wir entwerfen eine JSON-Vorlage, um die Berechnung von Evaluationsmetriken zu erleichtern, die speziell für jede Verankerungsaufgabe zugeschnitten sind. Durch die Integration eines neuartigen Zwei-Stufen-Inferenz-Workflows kann der Benchmark weiterhin die Fähigkeit von VLMs bewerten, Elemente/Attribute über zwei Diagramme hinweg abzugleichen und zu vergleichen. Unsere Analyse der Evaluationen mehrerer aktueller VLMs liefert neue Erkenntnisse über deren Wahrnehmungsverzerrungen, Schwächen, Robustheit und Halluzinationen im Diagrammverständnis. Diese Ergebnisse verdeutlichen die feinkörnigen Diskrepanzen zwischen VLMs bei Diagrammverständnisaufgaben und weisen auf spezifische Fähigkeiten hin, die in aktuellen Modellen gestärkt werden müssen.
English
Charts play an important role in visualization, reasoning, data analysis, and
the exchange of ideas among humans. However, existing vision-language models
(VLMs) still lack accurate perception of details and struggle to extract
fine-grained structures from charts. Such limitations in chart grounding also
hinder their ability to compare multiple charts and reason over them. In this
paper, we introduce a novel "ChartAlign Benchmark (ChartAB)" to provide a
comprehensive evaluation of VLMs in chart grounding tasks, i.e., extracting
tabular data, localizing visualization elements, and recognizing various
attributes from charts of diverse types and complexities. We design a JSON
template to facilitate the calculation of evaluation metrics specifically
tailored for each grounding task. By incorporating a novel two-stage inference
workflow, the benchmark can further evaluate VLMs' capability to align and
compare elements/attributes across two charts. Our analysis of evaluations on
several recent VLMs reveals new insights into their perception biases,
weaknesses, robustness, and hallucinations in chart understanding. These
findings highlight the fine-grained discrepancies among VLMs in chart
understanding tasks and point to specific skills that need to be strengthened
in current models.