MathCanvas: Catena di Pensiero Visivo Intrinseco per il Ragionamento Matematico Multimodale
MathCanvas: Intrinsic Visual Chain-of-Thought for Multimodal Mathematical Reasoning
October 16, 2025
Autori: Weikang Shi, Aldrich Yu, Rongyao Fang, Houxing Ren, Ke Wang, Aojun Zhou, Changyao Tian, Xinyu Fu, Yuxuan Hu, Zimu Lu, Linjiang Huang, Si Liu, Rui Liu, Hongsheng Li
cs.AI
Abstract
Mentre i Large Language Models (LLM) hanno eccelso nel ragionamento testuale, incontrano difficoltà nei domini matematici come la geometria, che si basano intrinsecamente su supporti visivi. Gli approcci esistenti al Visual Chain-of-Thought (VCoT) sono spesso limitati da strumenti esterni rigidi o non riescono a generare diagrammi ad alta fedeltà e temporalmente strategici necessari per la risoluzione di problemi complessi. Per colmare questa lacuna, introduciamo MathCanvas, un framework completo progettato per dotare i Large Multimodal Models (LMM) unificati di capacità intrinseche di VCoT per la matematica. Il nostro approccio si compone di due fasi. In primo luogo, una fase di Visual Manipulation pre-addestra il modello su un nuovo corpus di 15,2 milioni di coppie, comprendente 10 milioni di coppie didascalia-diagramma (MathCanvas-Imagen) e 5,2 milioni di traiettorie di modifica passo-passo (MathCanvas-Edit), per padroneggiare la generazione e la modifica dei diagrammi. In secondo luogo, una fase di Strategic Visual-Aided Reasoning affina il modello su MathCanvas-Instruct, un nuovo dataset di 219 mila esempi di percorsi di ragionamento intervallati visivo-testuali, insegnandogli quando e come sfruttare i supporti visivi. Per facilitare una valutazione rigorosa, introduciamo MathCanvas-Bench, un benchmark impegnativo con 3 mila problemi che richiedono ai modelli di produrre soluzioni intervallate visivo-testuali. Il nostro modello, BAGEL-Canvas, addestrato sotto questo framework, raggiunge un miglioramento relativo dell'86% rispetto ai forti baseline LMM su MathCanvas-Bench, dimostrando un'eccellente generalizzazione su altri benchmark matematici pubblici. Il nostro lavoro fornisce un toolkit completo—framework, dataset e benchmark—per sbloccare un ragionamento visivo-aided complesso e simile a quello umano negli LMM. Pagina del progetto: https://mathcanvas.github.io/
English
While Large Language Models (LLMs) have excelled in textual reasoning, they
struggle with mathematical domains like geometry that intrinsically rely on
visual aids. Existing approaches to Visual Chain-of-Thought (VCoT) are often
limited by rigid external tools or fail to generate the high-fidelity,
strategically-timed diagrams necessary for complex problem-solving. To bridge
this gap, we introduce MathCanvas, a comprehensive framework designed to endow
unified Large Multimodal Models (LMMs) with intrinsic VCoT capabilities for
mathematics. Our approach consists of two phases. First, a Visual Manipulation
stage pre-trains the model on a novel 15.2M-pair corpus, comprising 10M
caption-to-diagram pairs (MathCanvas-Imagen) and 5.2M step-by-step editing
trajectories (MathCanvas-Edit), to master diagram generation and editing.
Second, a Strategic Visual-Aided Reasoning stage fine-tunes the model on
MathCanvas-Instruct, a new 219K-example dataset of interleaved visual-textual
reasoning paths, teaching it when and how to leverage visual aids. To
facilitate rigorous evaluation, we introduce MathCanvas-Bench, a challenging
benchmark with 3K problems that require models to produce interleaved
visual-textual solutions. Our model, BAGEL-Canvas, trained under this
framework, achieves an 86% relative improvement over strong LMM baselines on
MathCanvas-Bench, demonstrating excellent generalization to other public math
benchmarks. Our work provides a complete toolkit-framework, datasets, and
benchmark-to unlock complex, human-like visual-aided reasoning in LMMs. Project
Page: https://mathcanvas.github.io/