ChatPaper.aiChatPaper

CodePlot-CoT : Raisonnement visuel mathématique en pensant avec des images pilotées par le code

CodePlot-CoT: Mathematical Visual Reasoning by Thinking with Code-Driven Images

October 13, 2025
papers.authors: Chengqi Duan, Kaiyue Sun, Rongyao Fang, Manyuan Zhang, Yan Feng, Ying Luo, Yufang Liu, Ke Wang, Peng Pei, Xunliang Cai, Hongsheng Li, Yi Ma, Xihui Liu
cs.AI

papers.abstract

Les récentes avancées dans les modèles de langage à grande échelle (LLMs) et les modèles de vision et langage (VLMs) ont montré des progrès significatifs en matière de raisonnement mathématique. Cependant, ils rencontrent toujours un goulot d'étranglement critique face à des problèmes nécessitant une assistance visuelle, comme le tracé de lignes auxiliaires ou la représentation graphique de fonctions pour résoudre les problèmes. La plupart des LLMs et VLMs sont limités à des chaînes de raisonnement textuelles, tandis que les modèles unifiés multimodaux capables de générer des séquences entrelacées de texte et d'images manquent de la précision et de la contrôlabilité nécessaires pour de telles tâches. Pour remédier à cela, nous proposons CodePlot-CoT, un paradigme de chaîne de pensée piloté par le code pour "penser avec des images" en mathématiques. Notre approche exploite le VLM pour générer un raisonnement textuel ainsi que du code exécutable de tracé graphique, qui est ensuite rendu en images comme "pensée visuelle", afin de résoudre des problèmes mathématiques. Pour y parvenir, nous construisons d'abord Math-VR, le premier ensemble de données et benchmark bilingue à grande échelle pour les problèmes de mathématiques avec raisonnement visuel, comprenant 178 000 échantillons. Ensuite, pour créer des données d'entraînement de haute qualité, nous développons un convertisseur image-à-code de pointe spécialisé dans l'analyse de figures mathématiques complexes en codes. Enfin, en utilisant ces données d'entraînement, nous entraînons le modèle CodePlot-CoT pour résoudre des problèmes mathématiques. Les résultats expérimentaux montrent que notre modèle atteint une augmentation allant jusqu'à 21 % par rapport au modèle de base sur notre nouveau benchmark, validant pleinement l'efficacité de notre paradigme de raisonnement piloté par le code. Notre travail ouvre une nouvelle direction pour le raisonnement mathématique multimodal et fournit à la communauté le premier ensemble de données à grande échelle, un benchmark complet et une approche robuste pour de tels problèmes. Pour faciliter les recherches futures, nous mettons à disposition nos ensembles de données, codes et modèles pré-entraînés à l'adresse suivante : https://github.com/HKU-MMLab/Math-VR-CodePlot-CoT.
English
Recent advances in Large Language Models (LLMs) and Vision Language Models (VLMs) have shown significant progress in mathematical reasoning, yet they still face a critical bottleneck with problems requiring visual assistance, such as drawing auxiliary lines or plotting functions to solve the problems. Most LLMs and VLMs are constrained to text-only reasoning chains, while multimodal unified models that can generate interleaved text and images lack the necessary precision and controllability for such tasks. To address this, we propose CodePlot-CoT, a code-driven Chain-of-Thought paradigm for "thinking with images" in mathematics. Our approach leverages the VLM to generate text reasoning as well as executable plotting code, which is then rendered into images as "visual thought", to solve mathematical problems. To achieve this, we first construct Math-VR, the first large-scale, bilingual dataset and benchmark for Mathematics problems with Visual Reasoning, comprising 178K samples. Second, to create high-quality training data, we develop a state-of-the-art image-to-code converter specialized for parsing complex mathematical figures into codes. Finally, using these training data, we train the CodePlot-CoT model for solving mathematical problems. Experimental results show that our model achieves up to 21% increase over base model on our new benchmark, fully validating the efficacy of our proposed code-driven reasoning paradigm. Our work opens a new direction for multimodal mathematical reasoning and provides the community with the first large-scale dataset, comprehensive benchmark, and strong approach for such problems. To facilitate future research, we make our datasets, code, and pretrained models publicly available at https://github.com/HKU-MMLab/Math-VR-CodePlot-CoT.
PDF132October 14, 2025