ChatPaper.aiChatPaper

ChartAB: Un punto de referencia para la fundamentación y alineación densa de gráficos

ChartAB: A Benchmark for Chart Grounding & Dense Alignment

October 30, 2025
Autores: Aniruddh Bansal, Davit Soselia, Dang Nguyen, Tianyi Zhou
cs.AI

Resumen

Los gráficos desempeñan un papel importante en la visualización, el razonamiento, el análisis de datos y el intercambio de ideas entre humanos. Sin embargo, los modelos de visión y lenguaje existentes aún carecen de una percepción precisa de los detalles y tienen dificultades para extraer estructuras de granularidad fina de los gráficos. Estas limitaciones en el anclaje de gráficos también obstaculizan su capacidad para comparar múltiples gráficos y razonar sobre ellos. En este artículo, presentamos un novedoso "Benchmark ChartAlign (ChartAB)" para proporcionar una evaluación integral de los modelos de visión y lenguaje en tareas de anclaje de gráficos, es decir, extraer datos tabulares, localizar elementos de visualización y reconocer diversos atributos de gráficos de diversos tipos y complejidades. Diseñamos una plantilla JSON para facilitar el cálculo de métricas de evaluación específicamente adaptadas para cada tarea de anclaje. Al incorporar un novedoso flujo de trabajo de inferencia en dos etapas, el benchmark puede evaluar además la capacidad de los modelos para alinear y comparar elementos/atributos entre dos gráficos. Nuestro análisis de las evaluaciones en varios modelos de visión y lenguaje recientes revela nuevas perspectivas sobre sus sesgos de percepción, debilidades, robustez y alucinaciones en la comprensión de gráficos. Estos hallazgos destacan las discrepancias de granularidad fina entre los modelos en tareas de comprensión de gráficos y señalan habilidades específicas que deben fortalecerse en los modelos actuales.
English
Charts play an important role in visualization, reasoning, data analysis, and the exchange of ideas among humans. However, existing vision-language models (VLMs) still lack accurate perception of details and struggle to extract fine-grained structures from charts. Such limitations in chart grounding also hinder their ability to compare multiple charts and reason over them. In this paper, we introduce a novel "ChartAlign Benchmark (ChartAB)" to provide a comprehensive evaluation of VLMs in chart grounding tasks, i.e., extracting tabular data, localizing visualization elements, and recognizing various attributes from charts of diverse types and complexities. We design a JSON template to facilitate the calculation of evaluation metrics specifically tailored for each grounding task. By incorporating a novel two-stage inference workflow, the benchmark can further evaluate VLMs' capability to align and compare elements/attributes across two charts. Our analysis of evaluations on several recent VLMs reveals new insights into their perception biases, weaknesses, robustness, and hallucinations in chart understanding. These findings highlight the fine-grained discrepancies among VLMs in chart understanding tasks and point to specific skills that need to be strengthened in current models.
PDF01December 2, 2025