ChartM^3: Многоэтапный код-ориентированный конвейер для построения многомерных и многошаговых данных визуального анализа в задачах понимания диаграмм
ChartM^3: A Multi-Stage Code-Driven Pipeline for Constructing Multi-Dimensional and Multi-Step Visual Reasoning Data in Chart Comprehension
November 4, 2025
Авторы: Duo Xu, Hao Cheng, Xin Lin, Zhen Xie, Hao Wang
cs.AI
Аннотация
Сложные задачи понимания диаграмм требуют от мультимодальных больших языковых моделей (MLLM) продвинутых возможностей визуального распознавания и логического вывода. Однако современные исследования ограниченно охватывают сложные сценарии работы с диаграммами и ресурсоемкие задачи логического вывода, распространенные в реальных приложениях. В данном исследовании предлагается автоматизированный многоэтапный код-ориентированный конвейер для систематического генерации наборов данных визуального логического вывода, направленный на устранение этих ограничений. Конвейер интегрирует генерацию с расширением выборки (RAG) для извлечения профессиональных шаблонов диаграмм и использует стратегии цепочек рассуждений (CoT) для генерации кода логического вывода, имитирующего реальные распределения данных, что впоследствии управляет визуализацией диаграмм и статистическими вычислениями, связанными с вопросами. Благодаря модельно-ориентированной оценке конвейер повышает разнообразие диаграмм и качество данных. Используя этот фреймворк, мы создали ChartM^3 — многомерный и многошаговый набор данных, содержащий 38 тыс. диаграмм и 142 тыс. пар «вопрос-ответ» для обучения, а также 2871 высококачественный образец для оценки, обеспечивающий практическое тестирование производительности. Эксперименты с контролируемым тонким настроением (SFT) и обучением с подкреплением (RL) демонстрируют, что наш набор данных значительно улучшает способности к логическому выводу и производительность междоменной генерализации, позволяя компактным моделям достигать результатов, сопоставимых с крупномасштабными моделями в области понимания сложных диаграмм.
English
Complex chart understanding tasks demand advanced visual recognition and
reasoning capabilities from multimodal large language models (MLLMs). However,
current research provides limited coverage of complex chart scenarios and
computation-intensive reasoning tasks prevalent in real-world applications.
This study proposes an automated multi-stage code-driven pipeline for
systematically generating visual reasoning datasets to address these
limitations. The pipeline integrates retrieval-augmented generation (RAG) to
retrieve professional chart templates and employs chain-of-thought (CoT)
strategies to generate reasoning codes that simulate real data distributions,
thereby driving chart rendering and question-related statistical computations.
Through model-based evaluation, the pipeline enhances chart diversity and data
quality. Using this framework, we construct ChartM^3, a multi-dimensional and
multi-step dataset containing 38K charts and 142K Q&A pairs for training, along
with 2,871 high-quality evaluation samples for enabling practical performance
assessment. Supervised fine-tuning (SFT) and reinforcement learning (RL)
experiments demonstrate that our dataset significantly improves reasoning
capabilities and cross-domain generalization performance, enabling smaller
models to achieve performance comparable to larger-scale models in complex
chart comprehension.