ChatPaper.aiChatPaper

ChartAB: Um Benchmark para Grounding e Alinhamento Denso em Gráficos

ChartAB: A Benchmark for Chart Grounding & Dense Alignment

October 30, 2025
Autores: Aniruddh Bansal, Davit Soselia, Dang Nguyen, Tianyi Zhou
cs.AI

Resumo

Os gráficos desempenham um papel importante na visualização, raciocínio, análise de dados e troca de ideias entre humanos. No entanto, os modelos visão-linguagem (VLMs) existentes ainda carecem de uma percepção precisa de detalhes e lutam para extrair estruturas refinadas de gráficos. Tais limitações na ancoragem de gráficos também prejudicam sua capacidade de comparar múltiplos gráficos e raciocinar sobre eles. Neste artigo, introduzimos uma nova "Referência de Alinhamento de Gráficos (ChartAB)" para fornecer uma avaliação abrangente dos VLMs em tarefas de ancoragem de gráficos, ou seja, extrair dados tabulares, localizar elementos de visualização e reconhecer vários atributos de gráficos de diversos tipos e complexidades. Projetamos um modelo JSON para facilitar o cálculo de métricas de avaliação especificamente adaptadas para cada tarefa de ancoragem. Ao incorporar um novo fluxo de inferência em dois estágios, a referência pode avaliar ainda mais a capacidade dos VLMs de alinhar e comparar elementos/atributos entre dois gráficos. Nossa análise das avaliações em vários VLMs recentes revela novos insights sobre seus vieses de percepção, fraquezas, robustez e alucinações na compreensão de gráficos. Essas descobertas destacam as discrepâncias refinadas entre os VLMs em tarefas de compreensão de gráficos e apontam para habilidades específicas que precisam ser fortalecidas nos modelos atuais.
English
Charts play an important role in visualization, reasoning, data analysis, and the exchange of ideas among humans. However, existing vision-language models (VLMs) still lack accurate perception of details and struggle to extract fine-grained structures from charts. Such limitations in chart grounding also hinder their ability to compare multiple charts and reason over them. In this paper, we introduce a novel "ChartAlign Benchmark (ChartAB)" to provide a comprehensive evaluation of VLMs in chart grounding tasks, i.e., extracting tabular data, localizing visualization elements, and recognizing various attributes from charts of diverse types and complexities. We design a JSON template to facilitate the calculation of evaluation metrics specifically tailored for each grounding task. By incorporating a novel two-stage inference workflow, the benchmark can further evaluate VLMs' capability to align and compare elements/attributes across two charts. Our analysis of evaluations on several recent VLMs reveals new insights into their perception biases, weaknesses, robustness, and hallucinations in chart understanding. These findings highlight the fine-grained discrepancies among VLMs in chart understanding tasks and point to specific skills that need to be strengthened in current models.
PDF01December 2, 2025