ChartAB: Бенчмарк для привязки к диаграммам и плотного согласования
ChartAB: A Benchmark for Chart Grounding & Dense Alignment
October 30, 2025
Авторы: Aniruddh Bansal, Davit Soselia, Dang Nguyen, Tianyi Zhou
cs.AI
Аннотация
Диаграммы играют важную роль в визуализации, анализе данных и обмене идеями между людьми. Однако существующие модели "визуальный язык" (VLM) по-прежнему недостаточно точно воспринимают детали и с трудом извлекают тонкую структуру из диаграмм. Такие ограничения в интерпретации диаграмм также препятствуют их способности сравнивать несколько диаграмм и проводить над ними рассуждения. В данной статье мы представляем новый "ChartAlign Benchmark (ChartAB)" для комплексной оценки VLM в задачах интерпретации диаграмм, а именно: извлечения табличных данных, локализации элементов визуализации и распознавания различных атрибутов из диаграмм разнообразных типов и сложности. Мы разработали JSON-шаблон для облегчения расчета метрик оценки, специально адаптированных для каждой задачи интерпретации. Благодаря включению нового двухэтапного подхода к логическому выводу, бенчмарк может дополнительно оценить способность VLM сопоставлять и сравнивать элементы/атрибуты между двумя диаграммами. Наш анализ оценки нескольких современных VLM выявляет новые аспекты их перцептивных смещений, слабых мест, устойчивости и галлюцинаций при понимании диаграмм. Эти результаты подчеркивают тонкие расхождения между VLM в задачах понимания диаграмм и указывают на конкретные навыки, которые необходимо усилить в современных моделях.
English
Charts play an important role in visualization, reasoning, data analysis, and
the exchange of ideas among humans. However, existing vision-language models
(VLMs) still lack accurate perception of details and struggle to extract
fine-grained structures from charts. Such limitations in chart grounding also
hinder their ability to compare multiple charts and reason over them. In this
paper, we introduce a novel "ChartAlign Benchmark (ChartAB)" to provide a
comprehensive evaluation of VLMs in chart grounding tasks, i.e., extracting
tabular data, localizing visualization elements, and recognizing various
attributes from charts of diverse types and complexities. We design a JSON
template to facilitate the calculation of evaluation metrics specifically
tailored for each grounding task. By incorporating a novel two-stage inference
workflow, the benchmark can further evaluate VLMs' capability to align and
compare elements/attributes across two charts. Our analysis of evaluations on
several recent VLMs reveals new insights into their perception biases,
weaknesses, robustness, and hallucinations in chart understanding. These
findings highlight the fine-grained discrepancies among VLMs in chart
understanding tasks and point to specific skills that need to be strengthened
in current models.