CodePlot-CoT: Raciocínio Matemático Visual por meio de Pensamento com Imagens Orientadas por Código
CodePlot-CoT: Mathematical Visual Reasoning by Thinking with Code-Driven Images
October 13, 2025
Autores: Chengqi Duan, Kaiyue Sun, Rongyao Fang, Manyuan Zhang, Yan Feng, Ying Luo, Yufang Liu, Ke Wang, Peng Pei, Xunliang Cai, Hongsheng Li, Yi Ma, Xihui Liu
cs.AI
Resumo
Os recentes avanços em Modelos de Linguagem de Grande Escala (LLMs) e Modelos de Linguagem Visual (VLMs) têm mostrado progresso significativo no raciocínio matemático, mas ainda enfrentam um gargalo crítico com problemas que exigem assistência visual, como traçar linhas auxiliares ou plotar funções para resolvê-los. A maioria dos LLMs e VLMs está limitada a cadeias de raciocínio baseadas apenas em texto, enquanto modelos unificados multimodais que podem gerar texto e imagens intercalados carecem da precisão e controlabilidade necessárias para tais tarefas. Para resolver isso, propomos o CodePlot-CoT, um paradigma de Cadeia de Pensamento (Chain-of-Thought) baseado em código para "pensar com imagens" na matemática. Nossa abordagem utiliza o VLM para gerar raciocínio textual, bem como código de plotagem executável, que é então renderizado em imagens como "pensamento visual", para resolver problemas matemáticos. Para alcançar isso, primeiro construímos o Math-VR, o primeiro conjunto de dados e benchmark em grande escala e bilíngue para problemas de Matemática com Raciocínio Visual, composto por 178 mil amostras. Em segundo lugar, para criar dados de treinamento de alta qualidade, desenvolvemos um conversor de imagem para código de última geração, especializado em analisar figuras matemáticas complexas e convertê-las em códigos. Por fim, utilizando esses dados de treinamento, treinamos o modelo CodePlot-CoT para resolver problemas matemáticos. Os resultados experimentais mostram que nosso modelo alcança um aumento de até 21% em relação ao modelo base em nosso novo benchmark, validando plenamente a eficácia do nosso paradigma de raciocínio baseado em código. Nosso trabalho abre uma nova direção para o raciocínio matemático multimodal e fornece à comunidade o primeiro conjunto de dados em grande escala, um benchmark abrangente e uma abordagem robusta para tais problemas. Para facilitar pesquisas futuras, disponibilizamos publicamente nossos conjuntos de dados, códigos e modelos pré-treinados em https://github.com/HKU-MMLab/Math-VR-CodePlot-CoT.
English
Recent advances in Large Language Models (LLMs) and Vision Language Models
(VLMs) have shown significant progress in mathematical reasoning, yet they
still face a critical bottleneck with problems requiring visual assistance,
such as drawing auxiliary lines or plotting functions to solve the problems.
Most LLMs and VLMs are constrained to text-only reasoning chains, while
multimodal unified models that can generate interleaved text and images lack
the necessary precision and controllability for such tasks. To address this, we
propose CodePlot-CoT, a code-driven Chain-of-Thought paradigm for "thinking
with images" in mathematics. Our approach leverages the VLM to generate text
reasoning as well as executable plotting code, which is then rendered into
images as "visual thought", to solve mathematical problems. To achieve this, we
first construct Math-VR, the first large-scale, bilingual dataset and benchmark
for Mathematics problems with Visual Reasoning, comprising 178K samples.
Second, to create high-quality training data, we develop a state-of-the-art
image-to-code converter specialized for parsing complex mathematical figures
into codes. Finally, using these training data, we train the CodePlot-CoT model
for solving mathematical problems. Experimental results show that our model
achieves up to 21% increase over base model on our new benchmark, fully
validating the efficacy of our proposed code-driven reasoning paradigm. Our
work opens a new direction for multimodal mathematical reasoning and provides
the community with the first large-scale dataset, comprehensive benchmark, and
strong approach for such problems. To facilitate future research, we make our
datasets, code, and pretrained models publicly available at
https://github.com/HKU-MMLab/Math-VR-CodePlot-CoT.