ChatPaper.aiChatPaper

ChartAB: Ein Benchmark für Chart-Verankerung und dichte Ausrichtung

ChartAB: A Benchmark for Chart Grounding & Dense Alignment

October 30, 2025
papers.authors: Aniruddh Bansal, Davit Soselia, Dang Nguyen, Tianyi Zhou
cs.AI

papers.abstract

Diagramme spielen eine wichtige Rolle bei der Visualisierung, dem Schlussfolgern, der Datenanalyse und dem Austausch von Ideen zwischen Menschen. Allerdings fehlt existierenden Vision-Language-Modellen (VLMs) nach wie vor eine präzise Wahrnehmung von Details, und sie haben Schwierigkeiten, feinkörnige Strukturen aus Diagrammen zu extrahieren. Diese Einschränkungen bei der Diagrammverankerung beeinträchtigen ebenfalls ihre Fähigkeit, mehrere Diagramme zu vergleichen und darüber zu schlussfolgern. In diesem Artikel stellen wir einen neuartigen "ChartAlign Benchmark (ChartAB)" vor, um eine umfassende Evaluation von VLMs in Diagrammverankerungsaufgaben zu ermöglichen, d.h. beim Extrahieren tabellarischer Daten, beim Lokalisieren von Visualisierungselementen und beim Erkennen verschiedener Attribute aus Diagrammen unterschiedlicher Typen und Komplexität. Wir entwerfen eine JSON-Vorlage, um die Berechnung von Evaluationsmetriken zu erleichtern, die speziell für jede Verankerungsaufgabe zugeschnitten sind. Durch die Integration eines neuartigen Zwei-Stufen-Inferenz-Workflows kann der Benchmark weiterhin die Fähigkeit von VLMs bewerten, Elemente/Attribute über zwei Diagramme hinweg abzugleichen und zu vergleichen. Unsere Analyse der Evaluationen mehrerer aktueller VLMs liefert neue Erkenntnisse über deren Wahrnehmungsverzerrungen, Schwächen, Robustheit und Halluzinationen im Diagrammverständnis. Diese Ergebnisse verdeutlichen die feinkörnigen Diskrepanzen zwischen VLMs bei Diagrammverständnisaufgaben und weisen auf spezifische Fähigkeiten hin, die in aktuellen Modellen gestärkt werden müssen.
English
Charts play an important role in visualization, reasoning, data analysis, and the exchange of ideas among humans. However, existing vision-language models (VLMs) still lack accurate perception of details and struggle to extract fine-grained structures from charts. Such limitations in chart grounding also hinder their ability to compare multiple charts and reason over them. In this paper, we introduce a novel "ChartAlign Benchmark (ChartAB)" to provide a comprehensive evaluation of VLMs in chart grounding tasks, i.e., extracting tabular data, localizing visualization elements, and recognizing various attributes from charts of diverse types and complexities. We design a JSON template to facilitate the calculation of evaluation metrics specifically tailored for each grounding task. By incorporating a novel two-stage inference workflow, the benchmark can further evaluate VLMs' capability to align and compare elements/attributes across two charts. Our analysis of evaluations on several recent VLMs reveals new insights into their perception biases, weaknesses, robustness, and hallucinations in chart understanding. These findings highlight the fine-grained discrepancies among VLMs in chart understanding tasks and point to specific skills that need to be strengthened in current models.
PDF01December 2, 2025