ChatPaper.aiChatPaper

CodePlot-CoT: Mathematisches visuelles Denken durch Denken mit Code-gesteuerten Bildern

CodePlot-CoT: Mathematical Visual Reasoning by Thinking with Code-Driven Images

October 13, 2025
papers.authors: Chengqi Duan, Kaiyue Sun, Rongyao Fang, Manyuan Zhang, Yan Feng, Ying Luo, Yufang Liu, Ke Wang, Peng Pei, Xunliang Cai, Hongsheng Li, Yi Ma, Xihui Liu
cs.AI

papers.abstract

Jüngste Fortschritte bei Large Language Models (LLMs) und Vision Language Models (VLMs) haben bedeutende Fortschritte im mathematischen Denken gezeigt, doch sie stoßen nach wie vor auf eine kritische Hürde bei Problemen, die visuelle Unterstützung erfordern, wie das Zeichnen von Hilfslinien oder das Plotten von Funktionen, um die Probleme zu lösen. Die meisten LLMs und VLMs sind auf textbasierte Denkketten beschränkt, während multimodale, vereinheitlichte Modelle, die verschachtelten Text und Bilder erzeugen können, die notwendige Präzision und Steuerbarkeit für solche Aufgaben vermissen lassen. Um dies zu adressieren, schlagen wir CodePlot-CoT vor, ein codegesteuertes Chain-of-Thought-Paradigma für das „Denken mit Bildern“ in der Mathematik. Unser Ansatz nutzt das VLM, um textbasierte Schlussfolgerungen sowie ausführbaren Plotting-Code zu generieren, der dann in Bilder als „visuelle Gedanken“ gerendert wird, um mathematische Probleme zu lösen. Um dies zu erreichen, konstruieren wir zunächst Math-VR, den ersten groß angelegten, zweisprachigen Datensatz und Benchmark für mathematische Probleme mit visuellem Denken, der 178K Proben umfasst. Zweitens entwickeln wir einen hochmodernen Bild-zu-Code-Konverter, der speziell für das Parsen komplexer mathematischer Figuren in Code ausgelegt ist, um hochwertige Trainingsdaten zu erstellen. Schließlich trainieren wir mit diesen Trainingsdaten das CodePlot-CoT-Modell zur Lösung mathematischer Probleme. Experimentelle Ergebnisse zeigen, dass unser Modell eine Steigerung von bis zu 21 % gegenüber dem Basismodell auf unserem neuen Benchmark erreicht, was die Wirksamkeit unseres vorgeschlagenen codegesteuerten Denkparadigmas vollständig bestätigt. Unsere Arbeit eröffnet eine neue Richtung für multimodales mathematisches Denken und stellt der Community den ersten groß angelegten Datensatz, einen umfassenden Benchmark und einen robusten Ansatz für solche Probleme zur Verfügung. Um zukünftige Forschung zu erleichtern, stellen wir unsere Datensätze, Code und vortrainierte Modelle öffentlich unter https://github.com/HKU-MMLab/Math-VR-CodePlot-CoT zur Verfügung.
English
Recent advances in Large Language Models (LLMs) and Vision Language Models (VLMs) have shown significant progress in mathematical reasoning, yet they still face a critical bottleneck with problems requiring visual assistance, such as drawing auxiliary lines or plotting functions to solve the problems. Most LLMs and VLMs are constrained to text-only reasoning chains, while multimodal unified models that can generate interleaved text and images lack the necessary precision and controllability for such tasks. To address this, we propose CodePlot-CoT, a code-driven Chain-of-Thought paradigm for "thinking with images" in mathematics. Our approach leverages the VLM to generate text reasoning as well as executable plotting code, which is then rendered into images as "visual thought", to solve mathematical problems. To achieve this, we first construct Math-VR, the first large-scale, bilingual dataset and benchmark for Mathematics problems with Visual Reasoning, comprising 178K samples. Second, to create high-quality training data, we develop a state-of-the-art image-to-code converter specialized for parsing complex mathematical figures into codes. Finally, using these training data, we train the CodePlot-CoT model for solving mathematical problems. Experimental results show that our model achieves up to 21% increase over base model on our new benchmark, fully validating the efficacy of our proposed code-driven reasoning paradigm. Our work opens a new direction for multimodal mathematical reasoning and provides the community with the first large-scale dataset, comprehensive benchmark, and strong approach for such problems. To facilitate future research, we make our datasets, code, and pretrained models publicly available at https://github.com/HKU-MMLab/Math-VR-CodePlot-CoT.
PDF132October 14, 2025