ChatPaper.aiChatPaper

ChartAB: 차트 기반 이해 및 밀집 정렬 벤치마크

ChartAB: A Benchmark for Chart Grounding & Dense Alignment

October 30, 2025
저자: Aniruddh Bansal, Davit Soselia, Dang Nguyen, Tianyi Zhou
cs.AI

초록

차트는 시각화, 추론, 데이터 분석 및 인간 간 아이디어 교환에서 중요한 역할을 합니다. 그러나 기존 시각-언어 모델(VLM)은 여전히 세부 요소에 대한 정확한 인식이 부족하며 차트에서 세밀한 구조를 추출하는 데 어려움을 겪습니다. 이러한 차트 기반 인식의 한계는 여러 차트를 비교하고 이를 기반으로 추론하는 모델의 능력도 저해합니다. 본 논문에서는 다양한 유형과 복잡성을 지닌 차트로부터 표 형식 데이터 추출, 시각화 요소 위치 파악, 다양한 속성 인식 등 차트 기반 인식 과제에서 VLM의 종합적인 평가를 제공하는 새로운 "ChartAlign Benchmark(ChartAB)"를 소개합니다. 우리는 각 기반 인식 과제에 특화된 평가 지표 계산을 용이하게 하기 위해 JSON 템플릿을 설계했습니다. 새로운 2단계 추론 워크플로우를 도입함으로써, 본 벤치마크는 두 차트 간 요소/속성 정렬 및 비교 능력까지 추가로 평가할 수 있습니다. 최근 여러 VLM에 대한 평가 분석을 통해 차트 이해 과정에서의 인식 편향, 취약점, 견고성 및 환각 현상에 대한 새로운 통찰을 얻었습니다. 이러한 결과는 차트 이해 과제에서 VLM 간 존재하는 세밀한 차이를 부각시키며, 현재 모델에서 강화해야 할 구체적인 기술적 개선점을 제시합니다.
English
Charts play an important role in visualization, reasoning, data analysis, and the exchange of ideas among humans. However, existing vision-language models (VLMs) still lack accurate perception of details and struggle to extract fine-grained structures from charts. Such limitations in chart grounding also hinder their ability to compare multiple charts and reason over them. In this paper, we introduce a novel "ChartAlign Benchmark (ChartAB)" to provide a comprehensive evaluation of VLMs in chart grounding tasks, i.e., extracting tabular data, localizing visualization elements, and recognizing various attributes from charts of diverse types and complexities. We design a JSON template to facilitate the calculation of evaluation metrics specifically tailored for each grounding task. By incorporating a novel two-stage inference workflow, the benchmark can further evaluate VLMs' capability to align and compare elements/attributes across two charts. Our analysis of evaluations on several recent VLMs reveals new insights into their perception biases, weaknesses, robustness, and hallucinations in chart understanding. These findings highlight the fine-grained discrepancies among VLMs in chart understanding tasks and point to specific skills that need to be strengthened in current models.
PDF01December 2, 2025