ChatPaper.aiChatPaper

CodePlot-CoT: Razonamiento Visual Matemático mediante el Pensamiento con Imágenes Impulsadas por Código

CodePlot-CoT: Mathematical Visual Reasoning by Thinking with Code-Driven Images

October 13, 2025
Autores: Chengqi Duan, Kaiyue Sun, Rongyao Fang, Manyuan Zhang, Yan Feng, Ying Luo, Yufang Liu, Ke Wang, Peng Pei, Xunliang Cai, Hongsheng Li, Yi Ma, Xihui Liu
cs.AI

Resumen

Los recientes avances en los Modelos de Lenguaje de Gran Escala (LLMs) y los Modelos de Lenguaje Visual (VLMs) han mostrado un progreso significativo en el razonamiento matemático, aunque aún enfrentan un cuello de botella crítico con problemas que requieren asistencia visual, como trazar líneas auxiliares o graficar funciones para resolverlos. La mayoría de los LLMs y VLMs están limitados a cadenas de razonamiento basadas únicamente en texto, mientras que los modelos unificados multimodales que pueden generar texto e imágenes intercalados carecen de la precisión y controlabilidad necesarias para tales tareas. Para abordar esto, proponemos CodePlot-CoT, un paradigma de Cadena de Pensamiento (Chain-of-Thought) basado en código para "pensar con imágenes" en matemáticas. Nuestro enfoque aprovecha el VLM para generar razonamiento textual, así como código ejecutable de graficación, que luego se convierte en imágenes como "pensamiento visual", para resolver problemas matemáticos. Para lograrlo, primero construimos Math-VR, el primer conjunto de datos y benchmark bilingüe a gran escala para problemas de Matemáticas con Razonamiento Visual, que comprende 178K muestras. En segundo lugar, para crear datos de entrenamiento de alta calidad, desarrollamos un convertidor de imagen a código de última generación especializado en analizar figuras matemáticas complejas y convertirlas en código. Finalmente, utilizando estos datos de entrenamiento, entrenamos el modelo CodePlot-CoT para resolver problemas matemáticos. Los resultados experimentales muestran que nuestro modelo logra un aumento de hasta un 21% sobre el modelo base en nuestro nuevo benchmark, validando completamente la eficacia de nuestro paradigma de razonamiento basado en código. Nuestro trabajo abre una nueva dirección para el razonamiento matemático multimodal y proporciona a la comunidad el primer conjunto de datos a gran escala, un benchmark completo y un enfoque sólido para tales problemas. Para facilitar investigaciones futuras, ponemos a disposición pública nuestros conjuntos de datos, código y modelos preentrenados en https://github.com/HKU-MMLab/Math-VR-CodePlot-CoT.
English
Recent advances in Large Language Models (LLMs) and Vision Language Models (VLMs) have shown significant progress in mathematical reasoning, yet they still face a critical bottleneck with problems requiring visual assistance, such as drawing auxiliary lines or plotting functions to solve the problems. Most LLMs and VLMs are constrained to text-only reasoning chains, while multimodal unified models that can generate interleaved text and images lack the necessary precision and controllability for such tasks. To address this, we propose CodePlot-CoT, a code-driven Chain-of-Thought paradigm for "thinking with images" in mathematics. Our approach leverages the VLM to generate text reasoning as well as executable plotting code, which is then rendered into images as "visual thought", to solve mathematical problems. To achieve this, we first construct Math-VR, the first large-scale, bilingual dataset and benchmark for Mathematics problems with Visual Reasoning, comprising 178K samples. Second, to create high-quality training data, we develop a state-of-the-art image-to-code converter specialized for parsing complex mathematical figures into codes. Finally, using these training data, we train the CodePlot-CoT model for solving mathematical problems. Experimental results show that our model achieves up to 21% increase over base model on our new benchmark, fully validating the efficacy of our proposed code-driven reasoning paradigm. Our work opens a new direction for multimodal mathematical reasoning and provides the community with the first large-scale dataset, comprehensive benchmark, and strong approach for such problems. To facilitate future research, we make our datasets, code, and pretrained models publicly available at https://github.com/HKU-MMLab/Math-VR-CodePlot-CoT.
PDF132October 14, 2025