ChartGemma: Visuelle Anweisungsabstimmung für Diagrammargumentation in freier Wildbahn
ChartGemma: Visual Instruction-tuning for Chart Reasoning in the Wild
July 4, 2024
Autoren: Ahmed Masry, Megh Thakkar, Aayush Bajaj, Aaryaman Kartha, Enamul Hoque, Shafiq Joty
cs.AI
Zusammenfassung
Angesichts der Allgegenwart von Diagrammen als Instrument zur Datenanalyse, Visualisierung und Entscheidungsfindung in verschiedenen Branchen und Wissenschaften besteht ein wachsendes Interesse an der Entwicklung von vorab trainierten Grundlagenmodellen sowie allgemeinen zweckangepassten Modellen für das Verständnis und die Argumentation von Diagrammen. Allerdings weisen bestehende Methoden entscheidende Nachteile entlang zweier kritischer Achsen auf, die die Leistung von Diagrammdarstellungsmodellen beeinträchtigen: Sie werden auf Daten trainiert, die aus den zugrunde liegenden Datentabellen der Diagramme generiert wurden, wobei visuelle Trends und Muster in Diagrammbildern ignoriert werden, und verwenden schwach ausgerichtete Bildsprach-Backbonemodelle für domänenspezifisches Training, was ihre Verallgemeinerbarkeit einschränkt, wenn sie auf Diagramme in freier Wildbahn treffen. Wir adressieren diese wichtigen Nachteile und stellen ChartGemma vor, ein neuartiges Modell für das Verständnis und die Argumentation von Diagrammen, das über PaliGemma entwickelt wurde. Anstatt sich auf zugrunde liegende Datentabellen zu verlassen, wird ChartGemma auf Anweisungstuning-Daten trainiert, die direkt aus Diagrammbildern generiert werden, wodurch sowohl übergeordnete Trends als auch niederwertige visuelle Informationen aus einer vielfältigen Menge von Diagrammen erfasst werden. Unser einfacher Ansatz erzielt Spitzenleistung auf 5 Benchmarks, die Diagrammzusammenfassung, Fragebeantwortung und Faktenprüfung umfassen, und unsere ausführlichen qualitative Studien an realen Diagrammen zeigen, dass ChartGemma im Vergleich zu seinen Zeitgenossen realistischere und faktisch korrekte Zusammenfassungen generiert. Wir veröffentlichen den Code, Modell-Checkpoints, Datensatz und Demos unter https://github.com/vis-nlp/ChartGemma.
English
Given the ubiquity of charts as a data analysis, visualization, and
decision-making tool across industries and sciences, there has been a growing
interest in developing pre-trained foundation models as well as general purpose
instruction-tuned models for chart understanding and reasoning. However,
existing methods suffer crucial drawbacks across two critical axes affecting
the performance of chart representation models: they are trained on data
generated from underlying data tables of the charts, ignoring the visual trends
and patterns in chart images, and use weakly aligned vision-language backbone
models for domain-specific training, limiting their generalizability when
encountering charts in the wild. We address these important drawbacks and
introduce ChartGemma, a novel chart understanding and reasoning model developed
over PaliGemma. Rather than relying on underlying data tables, ChartGemma is
trained on instruction-tuning data generated directly from chart images, thus
capturing both high-level trends and low-level visual information from a
diverse set of charts. Our simple approach achieves state-of-the-art results
across 5 benchmarks spanning chart summarization, question answering, and
fact-checking, and our elaborate qualitative studies on real-world charts show
that ChartGemma generates more realistic and factually correct summaries
compared to its contemporaries. We release the code, model checkpoints,
dataset, and demos at https://github.com/vis-nlp/ChartGemma.Summary
AI-Generated Summary