ChartM^3 : Un pipeline piloté par code à plusieurs étapes pour la construction de données de raisonnement visuel multidimensionnelles et multi-étapes dans la compréhension de graphiques
ChartM^3: A Multi-Stage Code-Driven Pipeline for Constructing Multi-Dimensional and Multi-Step Visual Reasoning Data in Chart Comprehension
November 4, 2025
papers.authors: Duo Xu, Hao Cheng, Xin Lin, Zhen Xie, Hao Wang
cs.AI
papers.abstract
Les tâches complexes de compréhension de graphiques exigent des modèles de langage multimodaux (MLLM) des capacités avancées de reconnaissance visuelle et de raisonnement. Cependant, la recherche actuelle couvre limitativement les scénarios de graphiques complexes et les tâches de raisonnement intensives en calcul, pourtant répandues dans les applications réelles. Cette étude propose un pipeline automatisé multi-étapes piloté par code pour générer systématiquement des ensembles de données de raisonnement visuel afin de remédier à ces limitations. Le pipeline intègre la génération augmentée par récupération (RAG) pour extraire des modèles de graphiques professionnels et emploie des stratégies de chaîne de pensée (CoT) pour générer des codes de raisonnement simulant des distributions de données réelles, pilotant ainsi le rendu des graphiques et les calculs statistiques liés aux questions. Grâce à une évaluation basée sur des modèles, le pipeline améliore la diversité des graphiques et la qualité des données. En utilisant ce cadre, nous construisons ChartM³, un ensemble de données multidimensionnel et multi-étapes contenant 38 000 graphiques et 142 000 paires questions-réponses pour l'entraînement, ainsi que 2 871 échantillons d'évaluation de haute qualité permettant une évaluation réaliste des performances. Des expériences de réglage fin supervisé (SFT) et d'apprentissage par renforcement (RL) démontrent que notre ensemble de données améliore significativement les capacités de raisonnement et les performances de généralisation inter-domaines, permettant à des modèles plus petits d'atteindre des performances comparables à des modèles à plus grande échelle dans la compréhension de graphiques complexes.
English
Complex chart understanding tasks demand advanced visual recognition and
reasoning capabilities from multimodal large language models (MLLMs). However,
current research provides limited coverage of complex chart scenarios and
computation-intensive reasoning tasks prevalent in real-world applications.
This study proposes an automated multi-stage code-driven pipeline for
systematically generating visual reasoning datasets to address these
limitations. The pipeline integrates retrieval-augmented generation (RAG) to
retrieve professional chart templates and employs chain-of-thought (CoT)
strategies to generate reasoning codes that simulate real data distributions,
thereby driving chart rendering and question-related statistical computations.
Through model-based evaluation, the pipeline enhances chart diversity and data
quality. Using this framework, we construct ChartM^3, a multi-dimensional and
multi-step dataset containing 38K charts and 142K Q&A pairs for training, along
with 2,871 high-quality evaluation samples for enabling practical performance
assessment. Supervised fine-tuning (SFT) and reinforcement learning (RL)
experiments demonstrate that our dataset significantly improves reasoning
capabilities and cross-domain generalization performance, enabling smaller
models to achieve performance comparable to larger-scale models in complex
chart comprehension.