ChartNet : Un jeu de données multimodal à grande échelle (un million d'éléments) et de haute qualité pour une compréhension robuste des graphiques

Résumé

Comprendre les graphiques nécessite que les modèles raisonnent conjointement sur les motifs visuels géométriques, les données numériques structurées et le langage naturel — une capacité où les modèles vision-langage (VLM) actuels restent limités. Nous présentons ChartNet, un ensemble de données multimodal de haute qualité et à l'échelle du million, conçu pour faire progresser l'interprétation et le raisonnement sur les graphiques. ChartNet tire parti d'un pipeline de synthèse guidé par le code pour générer 1,5 million d'échantillons de graphiques variés couvrant 24 types de graphiques et 6 bibliothèques de tracé. Chaque échantillon se compose de cinq composants alignés : le code de tracé, l'image du graphique rendu, le tableau de données, le résumé en langage naturel et une question-réponse avec raisonnement, offrant un alignement intermodal granulaire. Pour capturer l'ensemble du spectre de la compréhension des graphiques, ChartNet inclut en outre des sous-ensembles spécialisés comprenant des données annotées par des humains, des données réalistes, ainsi que des aspects de sûreté et d'ancrage. De plus, un pipeline rigoureux de filtrage qualité garantit la fidélité visuelle, l'exactitude sémantique et la diversité des représentations graphiques. Le fine-tuning sur ChartNet améliore systématiquement les résultats sur divers benchmarks, démontrant son utilité comme supervision à grande échelle pour les modèles multimodaux. En tant que plus grand ensemble de données open-source de ce type, ChartNet vise à soutenir le développement de modèles fondateurs dotés de capacités robustes et généralisables pour la compréhension des visualisations de données. Le jeu de données est disponible publiquement à l'adresse https://huggingface.co/datasets/ibm-granite/ChartNet.

English

Understanding charts requires models to jointly reason over geometric visual patterns, structured numerical data, and natural language -- a capability where current vision-language models (VLMs) remain limited. We introduce ChartNet, a high-quality, million-scale multimodal dataset designed to advance chart interpretation and reasoning. ChartNet leverages a novel code-guided synthesis pipeline to generate 1.5 million diverse chart samples spanning 24 chart types and 6 plotting libraries. Each sample consists of five aligned components: plotting code, rendered chart image, data table, natural language summary, and question-answering with reasoning, providing fine-grained cross-modal alignment. To capture the full spectrum of chart comprehension, ChartNet additionally includes specialized subsets encompassing human annotated data, real-world data, safety, and grounding. Moreover, a rigorous quality-filtering pipeline ensures visual fidelity, semantic accuracy, and diversity across chart representations. Fine-tuning on ChartNet consistently improves results across benchmarks, demonstrating its utility as large-scale supervision for multimodal models. As the largest open-source dataset of its kind, ChartNet aims to support the development of foundation models with robust and generalizable capabilities for data visualization understanding. The dataset is publicly available at https://huggingface.co/datasets/ibm-granite/ChartNet

ChartNet : Un jeu de données multimodal à grande échelle (un million d'éléments) et de haute qualité pour une compréhension robuste des graphiques

ChartNet: A Million-Scale, High-Quality Multimodal Dataset for Robust Chart Understanding

Résumé

Support