ChartGemma : Réglage visuel par instructions pour le raisonnement sur les graphiques en conditions réelles
ChartGemma: Visual Instruction-tuning for Chart Reasoning in the Wild
July 4, 2024
Auteurs: Ahmed Masry, Megh Thakkar, Aayush Bajaj, Aaryaman Kartha, Enamul Hoque, Shafiq Joty
cs.AI
Résumé
Étant donné l'omniprésence des graphiques comme outils d'analyse de données, de visualisation et de prise de décision dans divers secteurs et disciplines scientifiques, il y a un intérêt croissant pour le développement de modèles de base pré-entraînés ainsi que de modèles polyvalents ajustés par instruction pour la compréhension et le raisonnement sur les graphiques. Cependant, les méthodes existantes présentent des lacunes cruciales sur deux axes essentiels affectant les performances des modèles de représentation des graphiques : elles sont entraînées sur des données générées à partir des tableaux sous-jacents des graphiques, ignorant ainsi les tendances et motifs visuels présents dans les images de graphiques, et utilisent des modèles de base vision-langage faiblement alignés pour un entraînement spécifique au domaine, limitant leur généralisabilité face à des graphiques variés. Nous abordons ces lacunes importantes et présentons ChartGemma, un nouveau modèle de compréhension et de raisonnement sur les graphiques développé à partir de PaliGemma. Plutôt que de s'appuyer sur les tableaux de données sous-jacents, ChartGemma est entraîné sur des données d'ajustement par instruction générées directement à partir d'images de graphiques, capturant ainsi à la fois les tendances de haut niveau et les informations visuelles de bas niveau provenant d'un ensemble diversifié de graphiques. Notre approche simple atteint des résultats de pointe sur 5 benchmarks couvrant la synthèse de graphiques, la réponse à des questions et la vérification des faits, et nos études qualitatives approfondies sur des graphiques réels montrent que ChartGemma génère des résumés plus réalistes et factuellement corrects par rapport à ses contemporains. Nous mettons à disposition le code, les points de contrôle du modèle, le jeu de données et les démonstrations sur https://github.com/vis-nlp/ChartGemma.
English
Given the ubiquity of charts as a data analysis, visualization, and
decision-making tool across industries and sciences, there has been a growing
interest in developing pre-trained foundation models as well as general purpose
instruction-tuned models for chart understanding and reasoning. However,
existing methods suffer crucial drawbacks across two critical axes affecting
the performance of chart representation models: they are trained on data
generated from underlying data tables of the charts, ignoring the visual trends
and patterns in chart images, and use weakly aligned vision-language backbone
models for domain-specific training, limiting their generalizability when
encountering charts in the wild. We address these important drawbacks and
introduce ChartGemma, a novel chart understanding and reasoning model developed
over PaliGemma. Rather than relying on underlying data tables, ChartGemma is
trained on instruction-tuning data generated directly from chart images, thus
capturing both high-level trends and low-level visual information from a
diverse set of charts. Our simple approach achieves state-of-the-art results
across 5 benchmarks spanning chart summarization, question answering, and
fact-checking, and our elaborate qualitative studies on real-world charts show
that ChartGemma generates more realistic and factually correct summaries
compared to its contemporaries. We release the code, model checkpoints,
dataset, and demos at https://github.com/vis-nlp/ChartGemma.Summary
AI-Generated Summary