ChatPaper.aiChatPaper

ChartGemma: Visuele instructie-afstemming voor grafiekinterpretatie in praktijksituaties

ChartGemma: Visual Instruction-tuning for Chart Reasoning in the Wild

July 4, 2024
Auteurs: Ahmed Masry, Megh Thakkar, Aayush Bajaj, Aaryaman Kartha, Enamul Hoque, Shafiq Joty
cs.AI

Samenvatting

Gezien de alomtegenwoordigheid van grafieken als hulpmiddel voor data-analyse, visualisatie en besluitvorming in diverse industrieën en wetenschappen, is er een groeiende interesse in het ontwikkelen van vooraf getrainde foundation-modellen evenals algemene instructie-afgestemde modellen voor het begrijpen en redeneren over grafieken. Bestaande methoden hebben echter cruciale tekortkomingen op twee belangrijke aspecten die de prestaties van grafiekrepresentatiemodellen beïnvloeden: ze worden getraind op data gegenereerd uit de onderliggende datatabellen van de grafieken, waarbij de visuele trends en patronen in de grafiekafbeeldingen worden genegeerd, en ze gebruiken zwak uitgelijnde vision-language backbone-modellen voor domeinspecifieke training, wat hun generaliseerbaarheid beperkt bij het tegenkomen van grafieken in de praktijk. Wij pakken deze belangrijke tekortkomingen aan en introduceren ChartGemma, een nieuw model voor het begrijpen en redeneren over grafieken, ontwikkeld op basis van PaliGemma. In plaats van te vertrouwen op onderliggende datatabellen, wordt ChartGemma getraind op instructie-afstemmingsdata die rechtstreeks uit grafiekafbeeldingen wordt gegenereerd, waardoor zowel hoogwaardige trends als laagwaardige visuele informatie uit een diverse set grafieken wordt vastgelegd. Onze eenvoudige aanpak behaalt state-of-the-art resultaten op 5 benchmarks die grafieksamenvatting, vraagbeantwoording en feitencontrole omvatten, en onze uitgebreide kwalitatieve studies op real-world grafieken tonen aan dat ChartGemma realistischer en feitelijk correctere samenvattingen genereert in vergelijking met zijn tijdgenoten. We maken de code, modelcheckpoints, dataset en demo's beschikbaar op https://github.com/vis-nlp/ChartGemma.
English
Given the ubiquity of charts as a data analysis, visualization, and decision-making tool across industries and sciences, there has been a growing interest in developing pre-trained foundation models as well as general purpose instruction-tuned models for chart understanding and reasoning. However, existing methods suffer crucial drawbacks across two critical axes affecting the performance of chart representation models: they are trained on data generated from underlying data tables of the charts, ignoring the visual trends and patterns in chart images, and use weakly aligned vision-language backbone models for domain-specific training, limiting their generalizability when encountering charts in the wild. We address these important drawbacks and introduce ChartGemma, a novel chart understanding and reasoning model developed over PaliGemma. Rather than relying on underlying data tables, ChartGemma is trained on instruction-tuning data generated directly from chart images, thus capturing both high-level trends and low-level visual information from a diverse set of charts. Our simple approach achieves state-of-the-art results across 5 benchmarks spanning chart summarization, question answering, and fact-checking, and our elaborate qualitative studies on real-world charts show that ChartGemma generates more realistic and factually correct summaries compared to its contemporaries. We release the code, model checkpoints, dataset, and demos at https://github.com/vis-nlp/ChartGemma.
PDF256February 8, 2026