ChartGemma: Ajuste Visual de Instruções para Raciocínio de Gráficos na Natureza
ChartGemma: Visual Instruction-tuning for Chart Reasoning in the Wild
July 4, 2024
Autores: Ahmed Masry, Megh Thakkar, Aayush Bajaj, Aaryaman Kartha, Enamul Hoque, Shafiq Joty
cs.AI
Resumo
Dada a ubiquidade dos gráficos como uma ferramenta de análise de dados, visualização e tomada de decisão em diversas indústrias e ciências, tem havido um crescente interesse no desenvolvimento de modelos de base pré-treinados, bem como modelos ajustados para instruções de propósito geral para compreensão e raciocínio de gráficos. No entanto, os métodos existentes sofrem de desvantagens cruciais em dois eixos críticos que afetam o desempenho dos modelos de representação de gráficos: eles são treinados em dados gerados a partir das tabelas de dados subjacentes dos gráficos, ignorando as tendências visuais e padrões nas imagens dos gráficos, e utilizam modelos de base visão-linguagem fracamente alinhados para treinamento específico de domínio, limitando sua generalizabilidade ao encontrar gráficos na prática. Abordamos essas desvantagens importantes e apresentamos o ChartGemma, um novo modelo de compreensão e raciocínio de gráficos desenvolvido sobre o PaliGemma. Em vez de depender de tabelas de dados subjacentes, o ChartGemma é treinado em dados de ajuste de instruções gerados diretamente a partir de imagens de gráficos, capturando assim tanto as tendências de alto nível quanto as informações visuais de baixo nível de um conjunto diversificado de gráficos. Nossa abordagem simples alcança resultados de ponta em 5 benchmarks que abrangem sumarização de gráficos, resposta a perguntas e verificação de fatos, e nossos estudos qualitativos detalhados em gráficos do mundo real mostram que o ChartGemma gera resumos mais realistas e factualmente corretos em comparação com seus contemporâneos. Disponibilizamos o código, checkpoints do modelo, conjunto de dados e demonstrações em https://github.com/vis-nlp/ChartGemma.
English
Given the ubiquity of charts as a data analysis, visualization, and
decision-making tool across industries and sciences, there has been a growing
interest in developing pre-trained foundation models as well as general purpose
instruction-tuned models for chart understanding and reasoning. However,
existing methods suffer crucial drawbacks across two critical axes affecting
the performance of chart representation models: they are trained on data
generated from underlying data tables of the charts, ignoring the visual trends
and patterns in chart images, and use weakly aligned vision-language backbone
models for domain-specific training, limiting their generalizability when
encountering charts in the wild. We address these important drawbacks and
introduce ChartGemma, a novel chart understanding and reasoning model developed
over PaliGemma. Rather than relying on underlying data tables, ChartGemma is
trained on instruction-tuning data generated directly from chart images, thus
capturing both high-level trends and low-level visual information from a
diverse set of charts. Our simple approach achieves state-of-the-art results
across 5 benchmarks spanning chart summarization, question answering, and
fact-checking, and our elaborate qualitative studies on real-world charts show
that ChartGemma generates more realistic and factually correct summaries
compared to its contemporaries. We release the code, model checkpoints,
dataset, and demos at https://github.com/vis-nlp/ChartGemma.