ChatPaper.aiChatPaper

CodePlot-CoT: Wiskundig Visueel Redeneren door te Denken met Code-Gestuurde Afbeeldingen

CodePlot-CoT: Mathematical Visual Reasoning by Thinking with Code-Driven Images

October 13, 2025
Auteurs: Chengqi Duan, Kaiyue Sun, Rongyao Fang, Manyuan Zhang, Yan Feng, Ying Luo, Yufang Liu, Ke Wang, Peng Pei, Xunliang Cai, Hongsheng Li, Yi Ma, Xihui Liu
cs.AI

Samenvatting

Recente vooruitgang in Large Language Models (LLMs) en Vision Language Models (VLMs) heeft aanzienlijke vooruitgang laten zien in wiskundig redeneren, maar ze kampen nog steeds met een kritieke beperking bij problemen die visuele ondersteuning vereisen, zoals het tekenen van hulplijnen of het plotten van functies om de problemen op te lossen. De meeste LLMs en VLMs zijn beperkt tot tekstuele redeneerketens, terwijl multimodale geünificeerde modellen die interleaved tekst en afbeeldingen kunnen genereren, de nodige precisie en beheersbaarheid missen voor dergelijke taken. Om dit aan te pakken, stellen we CodePlot-CoT voor, een code-gedreven Chain-of-Thought-paradigma voor "denken met afbeeldingen" in de wiskunde. Onze aanpak maakt gebruik van de VLM om tekstueel redeneren te genereren, evenals uitvoerbare plotcode, die vervolgens wordt weergegeven als afbeeldingen als "visuele gedachten", om wiskundige problemen op te lossen. Om dit te bereiken, construeren we eerst Math-VR, de eerste grootschalige, tweetalige dataset en benchmark voor wiskundige problemen met visueel redeneren, bestaande uit 178K voorbeelden. Ten tweede ontwikkelen we, om hoogwaardige trainingsdata te creëren, een state-of-the-art afbeelding-naar-code-converter die gespecialiseerd is in het parsen van complexe wiskundige figuren naar code. Tot slot trainen we, met behulp van deze trainingsdata, het CodePlot-CoT-model voor het oplossen van wiskundige problemen. Experimentele resultaten tonen aan dat ons model een verbetering van tot 21% behaalt ten opzichte van het basismodel op onze nieuwe benchmark, wat de effectiviteit van ons voorgestelde code-gedreven redeneerparadigma volledig valideert. Ons werk opent een nieuwe richting voor multimodaal wiskundig redeneren en biedt de gemeenschap de eerste grootschalige dataset, uitgebreide benchmark en sterke aanpak voor dergelijke problemen. Om toekomstig onderzoek te vergemakkelijken, maken we onze datasets, code en voorgetrainde modellen publiekelijk beschikbaar op https://github.com/HKU-MMLab/Math-VR-CodePlot-CoT.
English
Recent advances in Large Language Models (LLMs) and Vision Language Models (VLMs) have shown significant progress in mathematical reasoning, yet they still face a critical bottleneck with problems requiring visual assistance, such as drawing auxiliary lines or plotting functions to solve the problems. Most LLMs and VLMs are constrained to text-only reasoning chains, while multimodal unified models that can generate interleaved text and images lack the necessary precision and controllability for such tasks. To address this, we propose CodePlot-CoT, a code-driven Chain-of-Thought paradigm for "thinking with images" in mathematics. Our approach leverages the VLM to generate text reasoning as well as executable plotting code, which is then rendered into images as "visual thought", to solve mathematical problems. To achieve this, we first construct Math-VR, the first large-scale, bilingual dataset and benchmark for Mathematics problems with Visual Reasoning, comprising 178K samples. Second, to create high-quality training data, we develop a state-of-the-art image-to-code converter specialized for parsing complex mathematical figures into codes. Finally, using these training data, we train the CodePlot-CoT model for solving mathematical problems. Experimental results show that our model achieves up to 21% increase over base model on our new benchmark, fully validating the efficacy of our proposed code-driven reasoning paradigm. Our work opens a new direction for multimodal mathematical reasoning and provides the community with the first large-scale dataset, comprehensive benchmark, and strong approach for such problems. To facilitate future research, we make our datasets, code, and pretrained models publicly available at https://github.com/HKU-MMLab/Math-VR-CodePlot-CoT.
PDF132October 14, 2025