ChatPaper.aiChatPaper

CodePlot-CoT: Ragionamento Matematico Visivo Pensando con Immagini Guidate dal Codice

CodePlot-CoT: Mathematical Visual Reasoning by Thinking with Code-Driven Images

October 13, 2025
Autori: Chengqi Duan, Kaiyue Sun, Rongyao Fang, Manyuan Zhang, Yan Feng, Ying Luo, Yufang Liu, Ke Wang, Peng Pei, Xunliang Cai, Hongsheng Li, Yi Ma, Xihui Liu
cs.AI

Abstract

I recenti progressi nei Modelli Linguistici di Grande Scala (LLMs) e nei Modelli Linguistico-Visuali (VLMs) hanno mostrato significativi miglioramenti nel ragionamento matematico, ma continuano a incontrare un collo di bottiglia critico con problemi che richiedono assistenza visiva, come il tracciamento di linee ausiliarie o la rappresentazione grafica di funzioni per risolvere i problemi. La maggior parte degli LLMs e VLMs è limitata a catene di ragionamento basate esclusivamente sul testo, mentre i modelli unificati multimodali in grado di generare testo e immagini intercalati mancano della precisione e della controllabilità necessarie per tali compiti. Per affrontare questa sfida, proponiamo CodePlot-CoT, un paradigma di Catena di Pensiero (Chain-of-Thought) guidato dal codice per "pensare con le immagini" in matematica. Il nostro approccio sfrutta il VLM per generare ragionamenti testuali e codice eseguibile per la rappresentazione grafica, che viene poi convertito in immagini come "pensiero visivo", per risolvere problemi matematici. Per raggiungere questo obiettivo, abbiamo prima costruito Math-VR, il primo dataset e benchmark su larga scala e bilingue per problemi di matematica con ragionamento visivo, composto da 178K campioni. In secondo luogo, per creare dati di addestramento di alta qualità, abbiamo sviluppato un convertitore immagine-codice all'avanguardia specializzato nell'analisi di figure matematiche complesse in codice. Infine, utilizzando questi dati di addestramento, abbiamo addestrato il modello CodePlot-CoT per risolvere problemi matematici. I risultati sperimentali mostrano che il nostro modello raggiunge un incremento fino al 21% rispetto al modello base sul nostro nuovo benchmark, convalidando pienamente l'efficacia del nostro paradigma di ragionamento guidato dal codice. Il nostro lavoro apre una nuova direzione per il ragionamento matematico multimodale e fornisce alla comunità il primo dataset su larga scala, un benchmark completo e un approccio solido per tali problemi. Per facilitare la ricerca futura, rendiamo pubblicamente disponibili i nostri dataset, codice e modelli pre-addestrati all'indirizzo https://github.com/HKU-MMLab/Math-VR-CodePlot-CoT.
English
Recent advances in Large Language Models (LLMs) and Vision Language Models (VLMs) have shown significant progress in mathematical reasoning, yet they still face a critical bottleneck with problems requiring visual assistance, such as drawing auxiliary lines or plotting functions to solve the problems. Most LLMs and VLMs are constrained to text-only reasoning chains, while multimodal unified models that can generate interleaved text and images lack the necessary precision and controllability for such tasks. To address this, we propose CodePlot-CoT, a code-driven Chain-of-Thought paradigm for "thinking with images" in mathematics. Our approach leverages the VLM to generate text reasoning as well as executable plotting code, which is then rendered into images as "visual thought", to solve mathematical problems. To achieve this, we first construct Math-VR, the first large-scale, bilingual dataset and benchmark for Mathematics problems with Visual Reasoning, comprising 178K samples. Second, to create high-quality training data, we develop a state-of-the-art image-to-code converter specialized for parsing complex mathematical figures into codes. Finally, using these training data, we train the CodePlot-CoT model for solving mathematical problems. Experimental results show that our model achieves up to 21% increase over base model on our new benchmark, fully validating the efficacy of our proposed code-driven reasoning paradigm. Our work opens a new direction for multimodal mathematical reasoning and provides the community with the first large-scale dataset, comprehensive benchmark, and strong approach for such problems. To facilitate future research, we make our datasets, code, and pretrained models publicly available at https://github.com/HKU-MMLab/Math-VR-CodePlot-CoT.
PDF132October 14, 2025