MathCanvas: Intrinsieke Visuele Ketting van Gedachten voor Multimodale Wiskundige Redenering
MathCanvas: Intrinsic Visual Chain-of-Thought for Multimodal Mathematical Reasoning
October 16, 2025
Auteurs: Weikang Shi, Aldrich Yu, Rongyao Fang, Houxing Ren, Ke Wang, Aojun Zhou, Changyao Tian, Xinyu Fu, Yuxuan Hu, Zimu Lu, Linjiang Huang, Si Liu, Rui Liu, Hongsheng Li
cs.AI
Samenvatting
Hoewel Large Language Models (LLMs) uitblinken in tekstueel redeneren, hebben ze moeite met wiskundige domeinen zoals geometrie die intrinsiek afhankelijk zijn van visuele hulpmiddelen. Bestaande benaderingen van Visual Chain-of-Thought (VCoT) worden vaak beperkt door rigide externe tools of slagen er niet in om de hoogwaardige, strategisch getimede diagrammen te genereren die nodig zijn voor complexe probleemoplossing. Om deze kloof te overbruggen, introduceren we MathCanvas, een uitgebreid framework ontworpen om geünificeerde Large Multimodal Models (LMMs) uit te rusten met intrinsieke VCoT-mogelijkheden voor wiskunde. Onze aanpak bestaat uit twee fasen. Eerst wordt in een Visual Manipulation-fase het model voorgetraind op een nieuw corpus van 15,2 miljoen paren, bestaande uit 10 miljoen caption-to-diagram paren (MathCanvas-Imagen) en 5,2 miljoen stap-voor-stap bewerkingstrajecten (MathCanvas-Edit), om het genereren en bewerken van diagrammen onder de knie te krijgen. Vervolgens wordt in een Strategic Visual-Aided Reasoning-fase het model afgestemd op MathCanvas-Instruct, een nieuwe dataset van 219.000 voorbeelden van verweven visueel-tekstuele redeneerpaden, waarbij het leert wanneer en hoe het visuele hulpmiddelen moet inzetten. Om een rigoureuze evaluatie mogelijk te maken, introduceren we MathCanvas-Bench, een uitdagende benchmark met 3.000 problemen die modellen vereisen om verweven visueel-tekstuele oplossingen te produceren. Ons model, BAGEL-Canvas, getraind onder dit framework, behaalt een relatieve verbetering van 86% ten opzichte van sterke LMM-baselines op MathCanvas-Bench, wat een uitstekende generalisatie naar andere openbare wiskunde-benchmarks aantoont. Ons werk biedt een complete toolkit - framework, datasets en benchmark - om complex, mensachtig visueel ondersteund redeneren in LMMs mogelijk te maken. Projectpagina: https://mathcanvas.github.io/
English
While Large Language Models (LLMs) have excelled in textual reasoning, they
struggle with mathematical domains like geometry that intrinsically rely on
visual aids. Existing approaches to Visual Chain-of-Thought (VCoT) are often
limited by rigid external tools or fail to generate the high-fidelity,
strategically-timed diagrams necessary for complex problem-solving. To bridge
this gap, we introduce MathCanvas, a comprehensive framework designed to endow
unified Large Multimodal Models (LMMs) with intrinsic VCoT capabilities for
mathematics. Our approach consists of two phases. First, a Visual Manipulation
stage pre-trains the model on a novel 15.2M-pair corpus, comprising 10M
caption-to-diagram pairs (MathCanvas-Imagen) and 5.2M step-by-step editing
trajectories (MathCanvas-Edit), to master diagram generation and editing.
Second, a Strategic Visual-Aided Reasoning stage fine-tunes the model on
MathCanvas-Instruct, a new 219K-example dataset of interleaved visual-textual
reasoning paths, teaching it when and how to leverage visual aids. To
facilitate rigorous evaluation, we introduce MathCanvas-Bench, a challenging
benchmark with 3K problems that require models to produce interleaved
visual-textual solutions. Our model, BAGEL-Canvas, trained under this
framework, achieves an 86% relative improvement over strong LMM baselines on
MathCanvas-Bench, demonstrating excellent generalization to other public math
benchmarks. Our work provides a complete toolkit-framework, datasets, and
benchmark-to unlock complex, human-like visual-aided reasoning in LMMs. Project
Page: https://mathcanvas.github.io/