CodePlot-CoT: Математическое визуальное рассуждение через мышление с использованием изображений, управляемых кодом
CodePlot-CoT: Mathematical Visual Reasoning by Thinking with Code-Driven Images
October 13, 2025
Авторы: Chengqi Duan, Kaiyue Sun, Rongyao Fang, Manyuan Zhang, Yan Feng, Ying Luo, Yufang Liu, Ke Wang, Peng Pei, Xunliang Cai, Hongsheng Li, Yi Ma, Xihui Liu
cs.AI
Аннотация
Последние достижения в области больших языковых моделей (LLM) и визуально-языковых моделей (VLM) продемонстрировали значительный прогресс в математических рассуждениях, однако они по-прежнему сталкиваются с критическим ограничением при решении задач, требующих визуальной поддержки, таких как построение вспомогательных линий или графиков функций. Большинство LLM и VLM ограничены текстовыми цепочками рассуждений, в то время как мультимодальные унифицированные модели, способные генерировать чередующийся текст и изображения, не обладают необходимой точностью и управляемостью для таких задач. Для решения этой проблемы мы предлагаем CodePlot-CoT, код-ориентированную парадигму цепочки рассуждений (Chain-of-Thought) для "мышления с изображениями" в математике. Наш подход использует VLM для генерации текстовых рассуждений, а также исполняемого кода построения графиков, который затем визуализируется в виде изображений как "визуальная мысль" для решения математических задач. Для достижения этой цели мы сначала создаем Math-VR, первый крупномасштабный двуязычный набор данных и бенчмарк для математических задач с визуальными рассуждениями, содержащий 178 тысяч образцов. Во-вторых, для создания высококачественных обучающих данных мы разрабатываем современный конвертер изображений в код, специализированный для преобразования сложных математических графиков в код. Наконец, используя эти данные, мы обучаем модель CodePlot-CoT для решения математических задач. Экспериментальные результаты показывают, что наша модель демонстрирует увеличение производительности до 21% по сравнению с базовой моделью на нашем новом бенчмарке, полностью подтверждая эффективность предложенной код-ориентированной парадигмы рассуждений. Наша работа открывает новое направление для мультимодальных математических рассуждений и предоставляет сообществу первый крупномасштабный набор данных, комплексный бенчмарк и мощный подход для решения таких задач. Для содействия будущим исследованиям мы делаем наши наборы данных, код и предобученные модели общедоступными по адресу https://github.com/HKU-MMLab/Math-VR-CodePlot-CoT.
English
Recent advances in Large Language Models (LLMs) and Vision Language Models
(VLMs) have shown significant progress in mathematical reasoning, yet they
still face a critical bottleneck with problems requiring visual assistance,
such as drawing auxiliary lines or plotting functions to solve the problems.
Most LLMs and VLMs are constrained to text-only reasoning chains, while
multimodal unified models that can generate interleaved text and images lack
the necessary precision and controllability for such tasks. To address this, we
propose CodePlot-CoT, a code-driven Chain-of-Thought paradigm for "thinking
with images" in mathematics. Our approach leverages the VLM to generate text
reasoning as well as executable plotting code, which is then rendered into
images as "visual thought", to solve mathematical problems. To achieve this, we
first construct Math-VR, the first large-scale, bilingual dataset and benchmark
for Mathematics problems with Visual Reasoning, comprising 178K samples.
Second, to create high-quality training data, we develop a state-of-the-art
image-to-code converter specialized for parsing complex mathematical figures
into codes. Finally, using these training data, we train the CodePlot-CoT model
for solving mathematical problems. Experimental results show that our model
achieves up to 21% increase over base model on our new benchmark, fully
validating the efficacy of our proposed code-driven reasoning paradigm. Our
work opens a new direction for multimodal mathematical reasoning and provides
the community with the first large-scale dataset, comprehensive benchmark, and
strong approach for such problems. To facilitate future research, we make our
datasets, code, and pretrained models publicly available at
https://github.com/HKU-MMLab/Math-VR-CodePlot-CoT.