ChartM^3: Een Code-Gestuurde Pijplijn in Meerdere Fasen voor het Opbouwen van Multidimensionale en Meerstaps Visuele Redeneergegevens bij Grafiekbegrip

Samenvatting

Complex grafiekbegrip vereist geavanceerde visuele herkenning en redeneervaardigheden van multimodale grote taalmodellen (MLLM's). Echter, huidig onderzoek biedt beperkte dekking van complexe grafiekscenario's en rekenintensieve redeneertaken die gangbaar zijn in praktijktoepassingen. Deze studie stelt een geautomatiseerde, meerfasige code-gestuurde pijplijn voor voor het systematisch genereren van visuele redeneerdatasets om deze beperkingen aan te pakken. De pijplijn integreert retrieval-augmented generation (RAG) om professionele grafieksjablonen op te halen en gebruikt chain-of-thought (CoT)-strategieën om redenatiecode te genereren die echte dataverdelingen simuleert, waardoor grafiekweergave en vraaggerelateerde statistische berekeningen worden aangedreven. Door modelgebaseerde evaluatie verbetert de pijplijn grafiekdiversiteit en data-kwaliteit. Met dit framework construeren we ChartM^3, een multidimensionale en meerstaps dataset met 38K grafieken en 142K vraag-antwoordparen voor training, plus 2.871 hoogwaardige evaluatiemonsters voor praktische prestatiebeoordeling. Supervised fine-tuning (SFT) en reinforcement learning (RL)-experimenten tonen aan dat onze dataset redeneervaardigheden en cross-domein generalisatieprestaties significant verbetert, waardoor kleinere modellen prestaties kunnen bereiken die vergelijkbaar zijn met grootschalige modellen in complex grafiekbegrip.

English

Complex chart understanding tasks demand advanced visual recognition and reasoning capabilities from multimodal large language models (MLLMs). However, current research provides limited coverage of complex chart scenarios and computation-intensive reasoning tasks prevalent in real-world applications. This study proposes an automated multi-stage code-driven pipeline for systematically generating visual reasoning datasets to address these limitations. The pipeline integrates retrieval-augmented generation (RAG) to retrieve professional chart templates and employs chain-of-thought (CoT) strategies to generate reasoning codes that simulate real data distributions, thereby driving chart rendering and question-related statistical computations. Through model-based evaluation, the pipeline enhances chart diversity and data quality. Using this framework, we construct ChartM^3, a multi-dimensional and multi-step dataset containing 38K charts and 142K Q&A pairs for training, along with 2,871 high-quality evaluation samples for enabling practical performance assessment. Supervised fine-tuning (SFT) and reinforcement learning (RL) experiments demonstrate that our dataset significantly improves reasoning capabilities and cross-domain generalization performance, enabling smaller models to achieve performance comparable to larger-scale models in complex chart comprehension.

ChartM^3: Een Code-Gestuurde Pijplijn in Meerdere Fasen voor het Opbouwen van Multidimensionale en Meerstaps Visuele Redeneergegevens bij Grafiekbegrip

ChartM^3: A Multi-Stage Code-Driven Pipeline for Constructing Multi-Dimensional and Multi-Step Visual Reasoning Data in Chart Comprehension

Samenvatting

Support