START: Aprendizado Espacial e Textual para Compreensão de Gráficos

Resumo

A compreensão de gráficos é crucial para a implantação de modelos de linguagem multimodal (MLLMs) em cenários do mundo real, como a análise de artigos científicos e relatórios técnicos. Diferentemente de imagens naturais, os gráficos combinam um layout visual estruturado (propriedade espacial) com uma representação de dados subjacente (propriedade textual) – compreender ambas é essencial para um raciocínio preciso e refinado sobre gráficos. Motivados por essa observação, propomos o START, o aprendizado Espacial e Textual para a compreensão de gráficos (Spatial and Textual learning for chART understanding). Especificamente, introduzimos (i) a ancoragem de elementos do gráfico (chart-element grounding) e (ii) a geração de gráfico-para-código (chart-to-code generation) para fortalecer a compreensão de um MLLM sobre o layout visual do gráfico e os detalhes dos dados. Para facilitar o aprendizado espacial e textual, propomos o START-Dataset, gerado com um novo pipeline de geração de dados que primeiro aproveita um MLLM para traduzir imagens reais de gráficos em código de gráfico executável, recuperando a representação de dados subjacente enquanto preserva a distribuição visual de gráficos do mundo real. Em seguida, evoluímos o código com um Modelo de Linguagem de Grande Escala (LLM) para ascertain as posições dos elementos do gráfico que capturam a estrutura visual do gráfico, abordando desafios que os métodos existentes não conseguem lidar. Para avaliar a capacidade de um modelo de entender estruturas espaciais de gráficos, propomos o Chart Spatial understanding Benchmark (CS-Bench), preenchendo uma lacuna crítica na avaliação abrangente da compreensão de gráficos. Aproveitando o aprendizado espacial e textual, o START oferece ganhos consistentes em todos os tamanhos de modelos e benchmarks em relação aos modelos base e supera os melhores métodos anteriores por uma margem clara. Código, dados e modelos estarão publicamente disponíveis.

English

Chart understanding is crucial for deploying multimodal large language models (MLLMs) in real-world scenarios such as analyzing scientific papers and technical reports. Unlike natural images, charts pair a structured visual layout (spatial property) with an underlying data representation (textual property) -- grasping both is essential for precise, fine-grained chart reasoning. Motivated by this observation, we propose START, the Spatial and Textual learning for chART understanding. Specifically, we introduce (i) chart-element grounding and (ii) chart-to-code generation to strengthen an MLLM's understanding of both chart visual layout and data details. To facilitate spatial and textual learning, we propose the START-Dataset generated with a novel data-generation pipeline that first leverages an MLLM to translate real chart images into executable chart code, recovering the underlying data representation while preserving the visual distribution of real-world charts. We then evolve the code with a Large Language Model (LLM) to ascertain the positions of chart elements that capture the chart's visual structure, addressing challenges that existing methods cannot handle. To evaluate a model's ability to understand chart spatial structures, we propose the Chart Spatial understanding Benchmark (CS-Bench), filling a critical gap in comprehensive chart understanding evaluation. Leveraging spatial and textual learning, START delivers consistent gains across model sizes and benchmarks over the base models and surpasses prior state-of-the-art by a clear margin. Code, data and models will be publicly available.

START: Aprendizado Espacial e Textual para Compreensão de Gráficos

START: Spatial and Textual Learning for Chart Understanding

Resumo

Support