ChartGemma: Adattamento visivo per il ragionamento su grafici in contesti reali
ChartGemma: Visual Instruction-tuning for Chart Reasoning in the Wild
July 4, 2024
Autori: Ahmed Masry, Megh Thakkar, Aayush Bajaj, Aaryaman Kartha, Enamul Hoque, Shafiq Joty
cs.AI
Abstract
Data l'ubiquità dei grafici come strumento di analisi dei dati, visualizzazione e
presa di decisioni in vari settori e discipline scientifiche, si è registrato un crescente
interesse nello sviluppo di modelli pre-addestrati di base e di modelli generali
ottimizzati per istruzioni per la comprensione e il ragionamento sui grafici. Tuttavia,
i metodi esistenti presentano importanti limitazioni lungo due assi critici che influenzano
le prestazioni dei modelli di rappresentazione dei grafici: vengono addestrati su dati
generati dalle tabelle sottostanti dei grafici, ignorando le tendenze e i modelli visivi
nelle immagini dei grafici, e utilizzano modelli di base visione-linguaggio debolmente
allineati per l'addestramento specifico del dominio, limitando la loro generalizzabilità
quando si incontrano grafici in contesti reali. Affrontiamo queste importanti limitazioni e
introduciamo ChartGemma, un innovativo modello di comprensione e ragionamento sui grafici
sviluppato su PaliGemma. Piuttosto che affidarsi alle tabelle di dati sottostanti, ChartGemma
viene addestrato su dati di ottimizzazione per istruzioni generati direttamente dalle immagini
dei grafici, catturando così sia le tendenze di alto livello che le informazioni visive di basso
livello da un insieme diversificato di grafici. Il nostro approccio semplice raggiunge risultati
all'avanguardia su 5 benchmark che coprono la sintesi dei grafici, il question answering e
la verifica dei fatti, e i nostri studi qualitativi approfonditi su grafici del mondo reale mostrano
che ChartGemma genera riassunti più realistici e corretti dal punto di vista fattuale rispetto
ai suoi contemporanei. Rilasciamo il codice, i checkpoint del modello, il dataset e le demo
all'indirizzo https://github.com/vis-nlp/ChartGemma.
English
Given the ubiquity of charts as a data analysis, visualization, and
decision-making tool across industries and sciences, there has been a growing
interest in developing pre-trained foundation models as well as general purpose
instruction-tuned models for chart understanding and reasoning. However,
existing methods suffer crucial drawbacks across two critical axes affecting
the performance of chart representation models: they are trained on data
generated from underlying data tables of the charts, ignoring the visual trends
and patterns in chart images, and use weakly aligned vision-language backbone
models for domain-specific training, limiting their generalizability when
encountering charts in the wild. We address these important drawbacks and
introduce ChartGemma, a novel chart understanding and reasoning model developed
over PaliGemma. Rather than relying on underlying data tables, ChartGemma is
trained on instruction-tuning data generated directly from chart images, thus
capturing both high-level trends and low-level visual information from a
diverse set of charts. Our simple approach achieves state-of-the-art results
across 5 benchmarks spanning chart summarization, question answering, and
fact-checking, and our elaborate qualitative studies on real-world charts show
that ChartGemma generates more realistic and factually correct summaries
compared to its contemporaries. We release the code, model checkpoints,
dataset, and demos at https://github.com/vis-nlp/ChartGemma.