ChartNet: un dataset multimodale di alta qualità su larga scala per una comprensione robusta dei grafici

Abstract

La comprensione dei grafici richiede ai modelli di ragionare congiuntamente su modelli visivi geometrici, dati numerici strutturati e linguaggio naturale, una capacità in cui gli attuali modelli visione-linguaggio (VLM) rimangono limitati. Presentiamo ChartNet, un dataset multimodale di alta qualità e su scala milionaria progettato per far progredire l'interpretazione e il ragionamento sui grafici. ChartNet sfrutta una pipeline di sintesi guidata da codice innovativa per generare 1,5 milioni di campioni di grafici diversificati, che coprono 24 tipologie di grafico e 6 librerie di plotting. Ogni campione è composto da cinque componenti allineati: codice di plotting, immagine renderizzata del grafico, tabella dati, riepilogo in linguaggio naturale e coppie domanda-risposta con ragionamento, garantendo un allineamento cross-modale granulare. Per catturare l'intero spettro della comprensione dei grafici, ChartNet include inoltre sottoinsiemi specializzati che racchiudono dati annotati da esseri umani, dati del mondo reale, aspetti di sicurezza e grounding. Inoltre, un rigoroso processo di filtraggio della qualità garantisce fedeltà visiva, accuratezza semantica e diversità tra le rappresentazioni dei grafici. Il fine-tuning su ChartNet migliora costantemente i risultati su diversi benchmark, dimostrandone l'utilità come supervisione su larga scala per modelli multimodali. In quanto dataset open-source più grande nel suo genere, ChartNet mira a supportare lo sviluppo di modelli di fondazione con capacità robuste e generalizzabili per la comprensione delle visualizzazioni di dati. Il dataset è pubblicamente disponibile all'indirizzo https://huggingface.co/datasets/ibm-granite/ChartNet.

English

Understanding charts requires models to jointly reason over geometric visual patterns, structured numerical data, and natural language -- a capability where current vision-language models (VLMs) remain limited. We introduce ChartNet, a high-quality, million-scale multimodal dataset designed to advance chart interpretation and reasoning. ChartNet leverages a novel code-guided synthesis pipeline to generate 1.5 million diverse chart samples spanning 24 chart types and 6 plotting libraries. Each sample consists of five aligned components: plotting code, rendered chart image, data table, natural language summary, and question-answering with reasoning, providing fine-grained cross-modal alignment. To capture the full spectrum of chart comprehension, ChartNet additionally includes specialized subsets encompassing human annotated data, real-world data, safety, and grounding. Moreover, a rigorous quality-filtering pipeline ensures visual fidelity, semantic accuracy, and diversity across chart representations. Fine-tuning on ChartNet consistently improves results across benchmarks, demonstrating its utility as large-scale supervision for multimodal models. As the largest open-source dataset of its kind, ChartNet aims to support the development of foundation models with robust and generalizable capabilities for data visualization understanding. The dataset is publicly available at https://huggingface.co/datasets/ibm-granite/ChartNet

ChartNet: un dataset multimodale di alta qualità su larga scala per una comprensione robusta dei grafici

ChartNet: A Million-Scale, High-Quality Multimodal Dataset for Robust Chart Understanding

Abstract

Support