ChartNet: ロバストなチャート理解のための大規模高品質マルチモーダルデータセット
ChartNet: A Million-Scale, High-Quality Multimodal Dataset for Robust Chart Understanding
March 28, 2026
著者: Jovana Kondic, Pengyuan Li, Dhiraj Joshi, Isaac Sanchez, Ben Wiesel, Shafiq Abedin, Amit Alfassy, Eli Schwartz, Daniel Caraballo, Yagmur Gizem Cinar, Florian Scheidegger, Steven I. Ross, Daniel Karl I. Weidele, Hang Hua, Ekaterina Arutyunova, Roei Herzig, Zexue He, Zihan Wang, Xinyue Yu, Yunfei Zhao, Sicong Jiang, Minghao Liu, Qunshu Lin, Peter Staar, Luis Lastras, Aude Oliva, Rogerio Feris
cs.AI
要旨
チャート理解には、幾何学的な視覚パターン、構造化された数値データ、自然言語を統合的に推論する能力が求められますが、これは現在の視覚言語モデル(VLM)が依然として限界を抱える領域です。本論文では、チャート解釈と推論の進展を目的として、高品質な100万規模のマルチモーダルデータセット「ChartNet」を提案します。ChartNetは、新規に開発したコード誘導型合成パイプラインを活用し、24のチャートタイプと6つのプロットライブラリにわたる150万の多様なチャートサンプルを生成します。各サンプルは、プロットコード、レンダリングされたチャート画像、データテーブル、自然言語要約、推論付き質問応答の5つの整合性のあるコンポーネントで構成され、きめ細かいクロスモーダル対応を実現しています。チャート理解の全範囲を捉えるため、ChartNetにはさらに、人手で注釈されたデータ、実世界データ、安全性、グラウンディングを含む専門的なサブセットも追加されています。さらに、厳格な品質フィルタリングパイプラインにより、視覚的信頼性、意味的精度、およびチャート表現全体の多様性が保証されています。ChartNetによるファインチューニングは、複数のベンチマークで一貫して結果を改善し、マルチモーダルモデルに対する大規模な教師データとしての有用性を実証しています。同種のデータセットとしては最大規模のオープンソースデータセットとして、ChartNetはデータ可視化理解における強固で一般化可能な能力を備えた基盤モデルの開発を支援することを目指しています。データセットは https://huggingface.co/datasets/ibm-granite/ChartNet で公開されています。
English
Understanding charts requires models to jointly reason over geometric visual patterns, structured numerical data, and natural language -- a capability where current vision-language models (VLMs) remain limited. We introduce ChartNet, a high-quality, million-scale multimodal dataset designed to advance chart interpretation and reasoning. ChartNet leverages a novel code-guided synthesis pipeline to generate 1.5 million diverse chart samples spanning 24 chart types and 6 plotting libraries. Each sample consists of five aligned components: plotting code, rendered chart image, data table, natural language summary, and question-answering with reasoning, providing fine-grained cross-modal alignment. To capture the full spectrum of chart comprehension, ChartNet additionally includes specialized subsets encompassing human annotated data, real-world data, safety, and grounding. Moreover, a rigorous quality-filtering pipeline ensures visual fidelity, semantic accuracy, and diversity across chart representations. Fine-tuning on ChartNet consistently improves results across benchmarks, demonstrating its utility as large-scale supervision for multimodal models. As the largest open-source dataset of its kind, ChartNet aims to support the development of foundation models with robust and generalizable capabilities for data visualization understanding. The dataset is publicly available at https://huggingface.co/datasets/ibm-granite/ChartNet