ChartM^3: Um Pipeline Orientado a Código em Múltiplos Estágios para Construção de Dados de Raciocínio Visual Multidimensionais e Multiestágios em Compreensão de Gráficos
ChartM^3: A Multi-Stage Code-Driven Pipeline for Constructing Multi-Dimensional and Multi-Step Visual Reasoning Data in Chart Comprehension
November 4, 2025
Autores: Duo Xu, Hao Cheng, Xin Lin, Zhen Xie, Hao Wang
cs.AI
Resumo
Tarefas complexas de compreensão de gráficos exigem capacidades avançadas de reconhecimento visual e raciocínio de modelos de linguagem multimodal (MLLMs). No entanto, as pesquisas atuais oferecem cobertura limitada de cenários complexos de gráficos e tarefas de raciocínio computacionalmente intensas prevalentes em aplicações do mundo real. Este estudo propõe um pipeline automatizado multiestágio orientado por código para gerar sistematicamente conjuntos de dados de raciocínio visual a fim de abordar essas limitações. O pipeline integra geração aumentada por recuperação (RAG) para recuperar modelos profissionais de gráficos e emprega estratégias de cadeia de pensamento (CoT) para gerar códigos de raciocínio que simulam distribuições de dados reais, impulsionando assim a renderização de gráficos e os cálculos estatísticos relacionados às perguntas. Por meio de avaliação baseada em modelo, o pipeline melhora a diversidade de gráficos e a qualidade dos dados. Utilizando este framework, construímos o ChartM³, um conjunto de dados multidimensional e multiestágio contendo 38 mil gráficos e 142 mil pares de perguntas e respostas para treinamento, juntamente com 2.871 amostras de avaliação de alta qualidade para permitir uma avaliação de desempenho prática. Experimentos de ajuste fino supervisionado (SFT) e aprendizado por reforço (RL) demonstram que nosso conjunto de dados melhora significativamente as capacidades de raciocínio e o desempenho de generalização cross-domain, permitindo que modelos menores alcancem desempenho comparável a modelos de maior escala na compreensão de gráficos complexos.
English
Complex chart understanding tasks demand advanced visual recognition and
reasoning capabilities from multimodal large language models (MLLMs). However,
current research provides limited coverage of complex chart scenarios and
computation-intensive reasoning tasks prevalent in real-world applications.
This study proposes an automated multi-stage code-driven pipeline for
systematically generating visual reasoning datasets to address these
limitations. The pipeline integrates retrieval-augmented generation (RAG) to
retrieve professional chart templates and employs chain-of-thought (CoT)
strategies to generate reasoning codes that simulate real data distributions,
thereby driving chart rendering and question-related statistical computations.
Through model-based evaluation, the pipeline enhances chart diversity and data
quality. Using this framework, we construct ChartM^3, a multi-dimensional and
multi-step dataset containing 38K charts and 142K Q&A pairs for training, along
with 2,871 high-quality evaluation samples for enabling practical performance
assessment. Supervised fine-tuning (SFT) and reinforcement learning (RL)
experiments demonstrate that our dataset significantly improves reasoning
capabilities and cross-domain generalization performance, enabling smaller
models to achieve performance comparable to larger-scale models in complex
chart comprehension.