ChatPaper.aiChatPaper

ChartM^3: Una Canalización Dirigida por Código en Múltiples Etapas para la Construcción de Datos de Razonamiento Visual Multidimensionales y Multi-Etapas en la Comprensión de Gráficos

ChartM^3: A Multi-Stage Code-Driven Pipeline for Constructing Multi-Dimensional and Multi-Step Visual Reasoning Data in Chart Comprehension

November 4, 2025
Autores: Duo Xu, Hao Cheng, Xin Lin, Zhen Xie, Hao Wang
cs.AI

Resumen

Las tareas complejas de comprensión de gráficos exigen capacidades avanzadas de reconocimiento visual y razonamiento por parte de los modelos de lenguaje multimodal (MLLM). Sin embargo, la investigación actual ofrece una cobertura limitada de escenarios de gráficos complejos y tareas de razonamiento computacionalmente intensivas, predominantes en aplicaciones del mundo real. Este estudio propone un pipeline automatizado de múltiples etapas basado en código para generar sistemáticamente conjuntos de datos de razonamiento visual que aborden estas limitaciones. El pipeline integra la generación aumentada por recuperación (RAG) para recuperar plantillas de gráficos profesionales y emplea estrategias de cadena de pensamiento (CoT) para generar códigos de razonamiento que simulen distribuciones de datos reales, impulsando así la renderización de gráficos y los cálculos estadísticos relacionados con las preguntas. Mediante evaluación basada en modelos, el pipeline mejora la diversidad de gráficos y la calidad de los datos. Utilizando este marco, construimos ChartM^3, un conjunto de datos multidimensional y de múltiples pasos que contiene 38K gráficos y 142K pares de preguntas y respuestas para entrenamiento, junto con 2,871 muestras de evaluación de alta calidad que permiten una valoración práctica del rendimiento. Los experimentos de ajuste fino supervisado (SFT) y aprendizaje por refuerzo (RL) demuestran que nuestro conjunto de datos mejora significativamente las capacidades de razonamiento y el rendimiento de generalización cruzada, permitiendo que modelos más pequeños logren un rendimiento comparable al de modelos a gran escala en la comprensión de gráficos complejos.
English
Complex chart understanding tasks demand advanced visual recognition and reasoning capabilities from multimodal large language models (MLLMs). However, current research provides limited coverage of complex chart scenarios and computation-intensive reasoning tasks prevalent in real-world applications. This study proposes an automated multi-stage code-driven pipeline for systematically generating visual reasoning datasets to address these limitations. The pipeline integrates retrieval-augmented generation (RAG) to retrieve professional chart templates and employs chain-of-thought (CoT) strategies to generate reasoning codes that simulate real data distributions, thereby driving chart rendering and question-related statistical computations. Through model-based evaluation, the pipeline enhances chart diversity and data quality. Using this framework, we construct ChartM^3, a multi-dimensional and multi-step dataset containing 38K charts and 142K Q&A pairs for training, along with 2,871 high-quality evaluation samples for enabling practical performance assessment. Supervised fine-tuning (SFT) and reinforcement learning (RL) experiments demonstrate that our dataset significantly improves reasoning capabilities and cross-domain generalization performance, enabling smaller models to achieve performance comparable to larger-scale models in complex chart comprehension.
PDF41December 2, 2025