ChartNet: 강력한 차트 이해를 위한 백만 규모의 고품질 멀티모달 데이터셋
ChartNet: A Million-Scale, High-Quality Multimodal Dataset for Robust Chart Understanding
March 28, 2026
저자: Jovana Kondic, Pengyuan Li, Dhiraj Joshi, Isaac Sanchez, Ben Wiesel, Shafiq Abedin, Amit Alfassy, Eli Schwartz, Daniel Caraballo, Yagmur Gizem Cinar, Florian Scheidegger, Steven I. Ross, Daniel Karl I. Weidele, Hang Hua, Ekaterina Arutyunova, Roei Herzig, Zexue He, Zihan Wang, Xinyue Yu, Yunfei Zhao, Sicong Jiang, Minghao Liu, Qunshu Lin, Peter Staar, Luis Lastras, Aude Oliva, Rogerio Feris
cs.AI
초록
차트 이해를 위해서는 모델이 기하학적 시각 패턴, 구조화된 수치 데이터, 자연어를 함께 추론할 수 있어야 하는데, 이는 현재의 시각-언어 모델(VLM)이 여전히 제한적인 능력입니다. 본 연구는 차트 해석 및 추론 능력을 향상시키기 위해 설계된 고품질의 백만 규모 다중모달 데이터셋인 ChartNet을 소개합니다. ChartNet은 새로운 코드 기반 합성 파이프라인을 활용하여 24개 차트 유형과 6개 플로팅 라이브러리에 걸쳐 150만 개의 다양한 차트 샘플을 생성합니다. 각 샘플은 플로팅 코드, 렌더링된 차트 이미지, 데이터 테이블, 자연어 요약, 추론 과정을 포함한 질의응답이라는 다섯 가지 정렬된 구성 요소로 이루어져 세밀한 교차 모달 정렬을 제공합니다. 차트 이해의 전체 범위를 포착하기 위해 ChartNet은 인간 주석 데이터, 실제 데이터, 안전성 및 근거를 포함하는 특화된 하위 집합을 추가로 포함합니다. 더욱이, 엄격한 품질 필터링 파이프라인을 통해 차트 표현 전반에 걸쳐 시각적 정확도, 의미적 정확성 및 다양성을 보장합니다. ChartNet으로 미세 조정을 수행하면 벤치마크 전반에서 결과가 지속적으로 개성되어 다중모달 모델을 위한 대규모 감독 데이터로서의 유용성을 입증합니다. 동종 최대의 오픈소스 데이터셋인 ChartNet은 데이터 시각화 이해를 위한 강력하고 일반화 가능한 능력을 갖춘 파운데이션 모델 개발을 지원하는 것을 목표로 합니다. 본 데이터셋은 https://huggingface.co/datasets/ibm-granite/ChartNet 에서 공개되어 있습니다.
English
Understanding charts requires models to jointly reason over geometric visual patterns, structured numerical data, and natural language -- a capability where current vision-language models (VLMs) remain limited. We introduce ChartNet, a high-quality, million-scale multimodal dataset designed to advance chart interpretation and reasoning. ChartNet leverages a novel code-guided synthesis pipeline to generate 1.5 million diverse chart samples spanning 24 chart types and 6 plotting libraries. Each sample consists of five aligned components: plotting code, rendered chart image, data table, natural language summary, and question-answering with reasoning, providing fine-grained cross-modal alignment. To capture the full spectrum of chart comprehension, ChartNet additionally includes specialized subsets encompassing human annotated data, real-world data, safety, and grounding. Moreover, a rigorous quality-filtering pipeline ensures visual fidelity, semantic accuracy, and diversity across chart representations. Fine-tuning on ChartNet consistently improves results across benchmarks, demonstrating its utility as large-scale supervision for multimodal models. As the largest open-source dataset of its kind, ChartNet aims to support the development of foundation models with robust and generalizable capabilities for data visualization understanding. The dataset is publicly available at https://huggingface.co/datasets/ibm-granite/ChartNet