MathCanvas: Cadena de Pensamiento Visual Intrínseca para el Razonamiento Matemático Multimodal
MathCanvas: Intrinsic Visual Chain-of-Thought for Multimodal Mathematical Reasoning
October 16, 2025
Autores: Weikang Shi, Aldrich Yu, Rongyao Fang, Houxing Ren, Ke Wang, Aojun Zhou, Changyao Tian, Xinyu Fu, Yuxuan Hu, Zimu Lu, Linjiang Huang, Si Liu, Rui Liu, Hongsheng Li
cs.AI
Resumen
Si bien los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han destacado en el razonamiento textual, enfrentan dificultades en dominios matemáticos como la geometría, que dependen intrínsecamente de ayudas visuales. Los enfoques existentes para la Cadena de Pensamiento Visual (VCoT, por sus siglas en inglés) suelen estar limitados por herramientas externas rígidas o no logran generar diagramas de alta fidelidad y estratégicamente sincronizados, necesarios para la resolución de problemas complejos. Para cerrar esta brecha, presentamos MathCanvas, un marco integral diseñado para dotar a los Modelos Multimodales de Gran Escala (LMMs, por sus siglas en inglés) con capacidades intrínsecas de VCoT para las matemáticas. Nuestro enfoque consta de dos fases. Primero, una etapa de Manipulación Visual preentrena el modelo en un nuevo corpus de 15.2 millones de pares, que incluye 10 millones de pares de descripción-diagrama (MathCanvas-Imagen) y 5.2 millones de trayectorias de edición paso a paso (MathCanvas-Edit), para dominar la generación y edición de diagramas. Segundo, una etapa de Razonamiento Estratégico con Ayuda Visual ajusta el modelo en MathCanvas-Instruct, un nuevo conjunto de datos de 219 mil ejemplos de rutas de razonamiento visual-textual intercaladas, enseñándole cuándo y cómo aprovechar las ayudas visuales. Para facilitar una evaluación rigurosa, presentamos MathCanvas-Bench, un punto de referencia desafiante con 3 mil problemas que requieren que los modelos produzcan soluciones visual-textuales intercaladas. Nuestro modelo, BAGEL-Canvas, entrenado bajo este marco, logra una mejora relativa del 86 % sobre líneas base sólidas de LMMs en MathCanvas-Bench, demostrando una excelente generalización en otros puntos de referencia matemáticos públicos. Nuestro trabajo proporciona un kit completo—marco, conjuntos de datos y punto de referencia—para desbloquear un razonamiento visual asistido complejo y similar al humano en LMMs. Página del proyecto: https://mathcanvas.github.io/
English
While Large Language Models (LLMs) have excelled in textual reasoning, they
struggle with mathematical domains like geometry that intrinsically rely on
visual aids. Existing approaches to Visual Chain-of-Thought (VCoT) are often
limited by rigid external tools or fail to generate the high-fidelity,
strategically-timed diagrams necessary for complex problem-solving. To bridge
this gap, we introduce MathCanvas, a comprehensive framework designed to endow
unified Large Multimodal Models (LMMs) with intrinsic VCoT capabilities for
mathematics. Our approach consists of two phases. First, a Visual Manipulation
stage pre-trains the model on a novel 15.2M-pair corpus, comprising 10M
caption-to-diagram pairs (MathCanvas-Imagen) and 5.2M step-by-step editing
trajectories (MathCanvas-Edit), to master diagram generation and editing.
Second, a Strategic Visual-Aided Reasoning stage fine-tunes the model on
MathCanvas-Instruct, a new 219K-example dataset of interleaved visual-textual
reasoning paths, teaching it when and how to leverage visual aids. To
facilitate rigorous evaluation, we introduce MathCanvas-Bench, a challenging
benchmark with 3K problems that require models to produce interleaved
visual-textual solutions. Our model, BAGEL-Canvas, trained under this
framework, achieves an 86% relative improvement over strong LMM baselines on
MathCanvas-Bench, demonstrating excellent generalization to other public math
benchmarks. Our work provides a complete toolkit-framework, datasets, and
benchmark-to unlock complex, human-like visual-aided reasoning in LMMs. Project
Page: https://mathcanvas.github.io/