ChatPaper.aiChatPaper

ChartM^3: Una pipeline guidata dal codice a più stadi per la costruzione di dati di ragionamento visivo multidimensionali e multi-step nella comprensione dei grafici

ChartM^3: A Multi-Stage Code-Driven Pipeline for Constructing Multi-Dimensional and Multi-Step Visual Reasoning Data in Chart Comprehension

November 4, 2025
Autori: Duo Xu, Hao Cheng, Xin Lin, Zhen Xie, Hao Wang
cs.AI

Abstract

I compiti complessi di comprensione dei grafici richiedono capacità avanzate di riconoscimento visivo e ragionamento da parte dei modelli linguistici multimodali di grandi dimensioni (MLLM). Tuttavia, la ricerca attuale fornisce una copertura limitata degli scenari di grafici complessi e dei compiti di ragionamento computazionalmente intensivi prevalenti nelle applicazioni del mondo reale. Questo studio propone una pipeline automatizzata multi-stadio guidata da codice per generare sistematicamente dataset di ragionamento visivo al fine di affrontare queste limitazioni. La pipeline integra la generazione aumentata dal recupero (RAG) per recuperare modelli di grafici professionali e impiega strategie a catena del pensiero (CoT) per generare codici di ragionamento che simulano distribuzioni di dati reali, guidando così il rendering dei grafici e i calcoli statistici relativi alle domande. Attraverso una valutazione basata su modelli, la pipeline migliora la diversità dei grafici e la qualità dei dati. Utilizzando questo framework, abbiamo costruito ChartM³, un dataset multidimensionale e multi-step contenente 38K grafici e 142K coppie di domande e risposte per l'addestramento, insieme a 2.871 campioni di valutazione di alta qualità per consentire una valutazione delle prestazioni pratica. Esperimenti di fine-tuning supervisionato (SFT) e di apprendimento per rinforzo (RL) dimostrano che il nostro dataset migliora significativamente le capacità di ragionamento e le prestazioni di generalizzazione cross-dominio, consentendo a modelli più piccoli di ottenere prestazioni paragonabili a modelli di scala maggiore nella comprensione di grafici complessi.
English
Complex chart understanding tasks demand advanced visual recognition and reasoning capabilities from multimodal large language models (MLLMs). However, current research provides limited coverage of complex chart scenarios and computation-intensive reasoning tasks prevalent in real-world applications. This study proposes an automated multi-stage code-driven pipeline for systematically generating visual reasoning datasets to address these limitations. The pipeline integrates retrieval-augmented generation (RAG) to retrieve professional chart templates and employs chain-of-thought (CoT) strategies to generate reasoning codes that simulate real data distributions, thereby driving chart rendering and question-related statistical computations. Through model-based evaluation, the pipeline enhances chart diversity and data quality. Using this framework, we construct ChartM^3, a multi-dimensional and multi-step dataset containing 38K charts and 142K Q&A pairs for training, along with 2,871 high-quality evaluation samples for enabling practical performance assessment. Supervised fine-tuning (SFT) and reinforcement learning (RL) experiments demonstrate that our dataset significantly improves reasoning capabilities and cross-domain generalization performance, enabling smaller models to achieve performance comparable to larger-scale models in complex chart comprehension.
PDF41December 2, 2025