ChatPaper.aiChatPaper

ChartNet: Ein Multimodaler Datensatz mit Millionen von Einträgen und hoher Qualität für robustes Chart-Verständnis

ChartNet: A Million-Scale, High-Quality Multimodal Dataset for Robust Chart Understanding

March 28, 2026
Autoren: Jovana Kondic, Pengyuan Li, Dhiraj Joshi, Isaac Sanchez, Ben Wiesel, Shafiq Abedin, Amit Alfassy, Eli Schwartz, Daniel Caraballo, Yagmur Gizem Cinar, Florian Scheidegger, Steven I. Ross, Daniel Karl I. Weidele, Hang Hua, Ekaterina Arutyunova, Roei Herzig, Zexue He, Zihan Wang, Xinyue Yu, Yunfei Zhao, Sicong Jiang, Minghao Liu, Qunshu Lin, Peter Staar, Luis Lastras, Aude Oliva, Rogerio Feris
cs.AI

Zusammenfassung

Das Verstehen von Diagrammen erfordert von Modellen die Fähigkeit, gleichzeitig über geometrische visuelle Muster, strukturierte numerische Daten und natürliche Sprache zu schlussfolgern – eine Fähigkeit, bei der aktuelle Vision-Language-Modelle (VLMs) nach wie vor eingeschränkt sind. Wir stellen ChartNet vor, einen hochwertigen, millionenfachen multimodalen Datensatz, der zur Weiterentwicklung der Diagramminterpretation und -analyse entwickelt wurde. ChartNet nutzt eine neuartige codegesteuerte Synthese-Pipeline, um 1,5 Millionen verschiedene Diagrammbeispiele aus 24 Diagrammtypen und 6 Plot-Bibliotheken zu generieren. Jedes Beispiel besteht aus fünf abgestimmten Komponenten: Plot-Code, gerendertes Diagrammbild, Datentabelle, natürliche Sprachzusammenfassung und Frage-Antwort-Paare mit Begründung, die eine feingranulare cross-modale Ausrichtung bieten. Um das gesamte Spektrum des Diagrammverständnisses abzudecken, umfasst ChartNet zusätzlich spezialisierte Teilmengen mit menschlich annotierten Daten, realen Daten, Sicherheitsaspekten und Verankerung. Darüber hinaus gewährleistet eine rigorose Qualitätsfilter-Pipeline die visuelle Treue, semantische Genauigkeit und Vielfalt der Diagrammdarstellungen. Fine-Tuning mit ChartNet verbessert durchgängig die Ergebnisse über verschiedene Benchmarks hinweg und demonstriert seinen Nutzen als großskalige Supervision für multimodale Modelle. Als der größte Open-Source-Datensatz seiner Art zielt ChartNet darauf ab, die Entwicklung von Foundation-Modellen mit robusten und generalisierbaren Fähigkeiten zum Verständnis von Datenvisualisierungen zu unterstützen. Der Datensatz ist öffentlich verfügbar unter https://huggingface.co/datasets/ibm-granite/ChartNet.
English
Understanding charts requires models to jointly reason over geometric visual patterns, structured numerical data, and natural language -- a capability where current vision-language models (VLMs) remain limited. We introduce ChartNet, a high-quality, million-scale multimodal dataset designed to advance chart interpretation and reasoning. ChartNet leverages a novel code-guided synthesis pipeline to generate 1.5 million diverse chart samples spanning 24 chart types and 6 plotting libraries. Each sample consists of five aligned components: plotting code, rendered chart image, data table, natural language summary, and question-answering with reasoning, providing fine-grained cross-modal alignment. To capture the full spectrum of chart comprehension, ChartNet additionally includes specialized subsets encompassing human annotated data, real-world data, safety, and grounding. Moreover, a rigorous quality-filtering pipeline ensures visual fidelity, semantic accuracy, and diversity across chart representations. Fine-tuning on ChartNet consistently improves results across benchmarks, demonstrating its utility as large-scale supervision for multimodal models. As the largest open-source dataset of its kind, ChartNet aims to support the development of foundation models with robust and generalizable capabilities for data visualization understanding. The dataset is publicly available at https://huggingface.co/datasets/ibm-granite/ChartNet
PDF111April 1, 2026