ChatPaper.aiChatPaper

ChartNet: Um Conjunto de Dados Multimodal de Grande Escala e Alta Qualidade para a Compreensão Robusta de Gráficos

ChartNet: A Million-Scale, High-Quality Multimodal Dataset for Robust Chart Understanding

March 28, 2026
Autores: Jovana Kondic, Pengyuan Li, Dhiraj Joshi, Isaac Sanchez, Ben Wiesel, Shafiq Abedin, Amit Alfassy, Eli Schwartz, Daniel Caraballo, Yagmur Gizem Cinar, Florian Scheidegger, Steven I. Ross, Daniel Karl I. Weidele, Hang Hua, Ekaterina Arutyunova, Roei Herzig, Zexue He, Zihan Wang, Xinyue Yu, Yunfei Zhao, Sicong Jiang, Minghao Liu, Qunshu Lin, Peter Staar, Luis Lastras, Aude Oliva, Rogerio Feris
cs.AI

Resumo

A compreensão de gráficos exige que os modelos raciocinem conjuntamente sobre padrões visuais geométricos, dados numéricos estruturados e linguagem natural — uma capacidade na qual os modelos atuais de visão e linguagem (VLMs) ainda permanecem limitados. Apresentamos o ChartNet, um conjunto de dados multimodais de alta qualidade e em escala de milhões, projetado para avançar a interpretação e o raciocínio sobre gráficos. O ChartNet aproveita um *pipeline* de síntese guiado por código inovador para gerar 1,5 milhão de amostras de gráficos diversificadas, abrangendo 24 tipos de gráfico e 6 bibliotecas de plotagem. Cada amostra consiste em cinco componentes alinhados: código de plotagem, imagem do gráfico renderizado, tabela de dados, resumo em linguagem natural e perguntas e respostas com raciocínio, fornecendo um alinhamento multimodal granular. Para capturar todo o espectro da compreensão de gráficos, o ChartNet inclui adicionalmente subconjuntos especializados que abrangem dados anotados por humanos, dados do mundo real, segurança e fundamentação. Além disso, um rigoroso *pipeline* de filtragem de qualidade garante fidelidade visual, precisão semântica e diversidade nas representações dos gráficos. O ajuste fino (*fine-tuning*) no ChartNet melhora consistentemente os resultados em vários *benchmarks*, demonstrando sua utilidade como supervisão em larga escala para modelos multimodais. Como o maior conjunto de dados de código aberto do gênero, o ChartNet visa apoiar o desenvolvimento de modelos de base com capacidades robustas e generalizáveis para a compreensão de visualização de dados. O conjunto de dados está publicamente disponível em https://huggingface.co/datasets/ibm-granite/ChartNet.
English
Understanding charts requires models to jointly reason over geometric visual patterns, structured numerical data, and natural language -- a capability where current vision-language models (VLMs) remain limited. We introduce ChartNet, a high-quality, million-scale multimodal dataset designed to advance chart interpretation and reasoning. ChartNet leverages a novel code-guided synthesis pipeline to generate 1.5 million diverse chart samples spanning 24 chart types and 6 plotting libraries. Each sample consists of five aligned components: plotting code, rendered chart image, data table, natural language summary, and question-answering with reasoning, providing fine-grained cross-modal alignment. To capture the full spectrum of chart comprehension, ChartNet additionally includes specialized subsets encompassing human annotated data, real-world data, safety, and grounding. Moreover, a rigorous quality-filtering pipeline ensures visual fidelity, semantic accuracy, and diversity across chart representations. Fine-tuning on ChartNet consistently improves results across benchmarks, demonstrating its utility as large-scale supervision for multimodal models. As the largest open-source dataset of its kind, ChartNet aims to support the development of foundation models with robust and generalizable capabilities for data visualization understanding. The dataset is publicly available at https://huggingface.co/datasets/ibm-granite/ChartNet
PDF262April 17, 2026