ChartM^3: Um Pipeline Orientado a Código em Múltiplos Estágios para Construção de Dados de Raciocínio Visual Multidimensionais e Multiestágios em Compreensão de Gráficos

Resumo

Tarefas complexas de compreensão de gráficos exigem capacidades avançadas de reconhecimento visual e raciocínio de modelos de linguagem multimodal (MLLMs). No entanto, as pesquisas atuais oferecem cobertura limitada de cenários complexos de gráficos e tarefas de raciocínio computacionalmente intensas prevalentes em aplicações do mundo real. Este estudo propõe um pipeline automatizado multiestágio orientado por código para gerar sistematicamente conjuntos de dados de raciocínio visual a fim de abordar essas limitações. O pipeline integra geração aumentada por recuperação (RAG) para recuperar modelos profissionais de gráficos e emprega estratégias de cadeia de pensamento (CoT) para gerar códigos de raciocínio que simulam distribuições de dados reais, impulsionando assim a renderização de gráficos e os cálculos estatísticos relacionados às perguntas. Por meio de avaliação baseada em modelo, o pipeline melhora a diversidade de gráficos e a qualidade dos dados. Utilizando este framework, construímos o ChartM³, um conjunto de dados multidimensional e multiestágio contendo 38 mil gráficos e 142 mil pares de perguntas e respostas para treinamento, juntamente com 2.871 amostras de avaliação de alta qualidade para permitir uma avaliação de desempenho prática. Experimentos de ajuste fino supervisionado (SFT) e aprendizado por reforço (RL) demonstram que nosso conjunto de dados melhora significativamente as capacidades de raciocínio e o desempenho de generalização cross-domain, permitindo que modelos menores alcancem desempenho comparável a modelos de maior escala na compreensão de gráficos complexos.

English

Complex chart understanding tasks demand advanced visual recognition and reasoning capabilities from multimodal large language models (MLLMs). However, current research provides limited coverage of complex chart scenarios and computation-intensive reasoning tasks prevalent in real-world applications. This study proposes an automated multi-stage code-driven pipeline for systematically generating visual reasoning datasets to address these limitations. The pipeline integrates retrieval-augmented generation (RAG) to retrieve professional chart templates and employs chain-of-thought (CoT) strategies to generate reasoning codes that simulate real data distributions, thereby driving chart rendering and question-related statistical computations. Through model-based evaluation, the pipeline enhances chart diversity and data quality. Using this framework, we construct ChartM^3, a multi-dimensional and multi-step dataset containing 38K charts and 142K Q&A pairs for training, along with 2,871 high-quality evaluation samples for enabling practical performance assessment. Supervised fine-tuning (SFT) and reinforcement learning (RL) experiments demonstrate that our dataset significantly improves reasoning capabilities and cross-domain generalization performance, enabling smaller models to achieve performance comparable to larger-scale models in complex chart comprehension.

ChartM^3: Um Pipeline Orientado a Código em Múltiplos Estágios para Construção de Dados de Raciocínio Visual Multidimensionais e Multiestágios em Compreensão de Gráficos

ChartM^3: A Multi-Stage Code-Driven Pipeline for Constructing Multi-Dimensional and Multi-Step Visual Reasoning Data in Chart Comprehension

Resumo

Support