ChatPaper.aiChatPaper

ChartM^3: Eine mehrstufige, code-gesteuerte Pipeline zur Erstellung mehrdimensionaler und mehrstufiger Visualisierungsdaten für das visuelle Denken im Bereich Chartverständnis

ChartM^3: A Multi-Stage Code-Driven Pipeline for Constructing Multi-Dimensional and Multi-Step Visual Reasoning Data in Chart Comprehension

November 4, 2025
papers.authors: Duo Xu, Hao Cheng, Xin Lin, Zhen Xie, Hao Wang
cs.AI

papers.abstract

Komplexe Diagrammverständnisaufgaben erfordern fortgeschrittene visuelle Erkennungs- und logische Schlussfolgerungsfähigkeiten von multimodalen großen Sprachmodellen (MLLMs). Die aktuelle Forschung bietet jedoch nur eine begrenzte Abdeckung komplexer Diagrammszenarien und rechenintensiver Denkaufgaben, die in realen Anwendungen weit verbreitet sind. Diese Studie schlägt eine automatisierte, mehrstufige, codegesteuerte Pipeline zur systematischen Generierung visueller Reasoning-Datensätze vor, um diese Einschränkungen zu adressieren. Die Pipeline integriert Retrieval-Augmented Generation (RAG), um professionelle Diagrammvorlagen abzurufen, und nutzt Chain-of-Thought (CoT)-Strategien, um Reasoning-Codes zu generieren, die reale Datenverteilungen simulieren und dadurch das Diagramm-Rendering sowie fragebezogene statistische Berechnungen antreiben. Durch modellbasierte Evaluation verbessert die Pipeline die Diagrammvielfalt und Datenqualität. Mit diesem Framework konstruieren wir ChartM^3, einen multidimensionalen und mehrstufigen Datensatz, der 38.000 Diagramme und 142.000 Frage-Antwort-Paare für das Training sowie 2.871 hochwertige Evaluierungsstichproben für eine praxisnahe Leistungsbewertung enthält. Überwachte Feinabstimmung (SFT) und Verstärkungslernen (RL)-Experimente zeigen, dass unser Datensatz die Reasoning-Fähigkeiten und die domänenübergreifende Generalisierungsleistung signifikant verbessert und es kleineren Modellen ermöglicht, eine mit größeren Modellen vergleichbare Leistung im komplexen Diagrammverständnis zu erreichen.
English
Complex chart understanding tasks demand advanced visual recognition and reasoning capabilities from multimodal large language models (MLLMs). However, current research provides limited coverage of complex chart scenarios and computation-intensive reasoning tasks prevalent in real-world applications. This study proposes an automated multi-stage code-driven pipeline for systematically generating visual reasoning datasets to address these limitations. The pipeline integrates retrieval-augmented generation (RAG) to retrieve professional chart templates and employs chain-of-thought (CoT) strategies to generate reasoning codes that simulate real data distributions, thereby driving chart rendering and question-related statistical computations. Through model-based evaluation, the pipeline enhances chart diversity and data quality. Using this framework, we construct ChartM^3, a multi-dimensional and multi-step dataset containing 38K charts and 142K Q&A pairs for training, along with 2,871 high-quality evaluation samples for enabling practical performance assessment. Supervised fine-tuning (SFT) and reinforcement learning (RL) experiments demonstrate that our dataset significantly improves reasoning capabilities and cross-domain generalization performance, enabling smaller models to achieve performance comparable to larger-scale models in complex chart comprehension.
PDF41December 2, 2025