MathCanvas : Chaîne de pensée visuelle intrinsèque pour le raisonnement mathématique multimodal
MathCanvas: Intrinsic Visual Chain-of-Thought for Multimodal Mathematical Reasoning
October 16, 2025
papers.authors: Weikang Shi, Aldrich Yu, Rongyao Fang, Houxing Ren, Ke Wang, Aojun Zhou, Changyao Tian, Xinyu Fu, Yuxuan Hu, Zimu Lu, Linjiang Huang, Si Liu, Rui Liu, Hongsheng Li
cs.AI
papers.abstract
Bien que les modèles de langage de grande taille (LLMs) excellent dans le raisonnement textuel, ils peinent dans les domaines mathématiques comme la géométrie, qui reposent intrinsèquement sur des aides visuelles. Les approches existantes de la Chaîne de Pensée Visuelle (VCoT) sont souvent limitées par des outils externes rigides ou échouent à générer des diagrammes de haute fidélité et stratégiquement synchronisés, nécessaires pour résoudre des problèmes complexes. Pour combler cette lacune, nous introduisons MathCanvas, un cadre complet conçu pour doter les modèles multimodaux de grande taille unifiés (LMMs) de capacités intrinsèques de VCoT pour les mathématiques. Notre approche se compose de deux phases. Premièrement, une étape de Manipulation Visuelle pré-entraîne le modèle sur un nouveau corpus de 15,2 millions de paires, comprenant 10 millions de paires légende-diagramme (MathCanvas-Imagen) et 5,2 millions de trajectoires d'édition étape par étape (MathCanvas-Edit), pour maîtriser la génération et l'édition de diagrammes. Deuxièmement, une étape de Raisonnement Stratégique Assisté Visuellement affine le modèle sur MathCanvas-Instruct, un nouvel ensemble de données de 219 000 exemples de chemins de raisonnement visuel-textuel entrelacés, lui apprenant quand et comment tirer parti des aides visuelles. Pour faciliter une évaluation rigoureuse, nous introduisons MathCanvas-Bench, un benchmark exigeant avec 3 000 problèmes nécessitant que les modèles produisent des solutions visuelles-textuelles entrelacées. Notre modèle, BAGEL-Canvas, entraîné dans ce cadre, réalise une amélioration relative de 86 % par rapport aux solides modèles de base LMM sur MathCanvas-Bench, démontrant une excellente généralisation sur d'autres benchmarks mathématiques publics. Notre travail fournit une boîte à outils complète - cadre, ensembles de données et benchmark - pour débloquer un raisonnement assisté visuellement complexe et semblable à celui des humains dans les LMMs. Page du projet : https://mathcanvas.github.io/
English
While Large Language Models (LLMs) have excelled in textual reasoning, they
struggle with mathematical domains like geometry that intrinsically rely on
visual aids. Existing approaches to Visual Chain-of-Thought (VCoT) are often
limited by rigid external tools or fail to generate the high-fidelity,
strategically-timed diagrams necessary for complex problem-solving. To bridge
this gap, we introduce MathCanvas, a comprehensive framework designed to endow
unified Large Multimodal Models (LMMs) with intrinsic VCoT capabilities for
mathematics. Our approach consists of two phases. First, a Visual Manipulation
stage pre-trains the model on a novel 15.2M-pair corpus, comprising 10M
caption-to-diagram pairs (MathCanvas-Imagen) and 5.2M step-by-step editing
trajectories (MathCanvas-Edit), to master diagram generation and editing.
Second, a Strategic Visual-Aided Reasoning stage fine-tunes the model on
MathCanvas-Instruct, a new 219K-example dataset of interleaved visual-textual
reasoning paths, teaching it when and how to leverage visual aids. To
facilitate rigorous evaluation, we introduce MathCanvas-Bench, a challenging
benchmark with 3K problems that require models to produce interleaved
visual-textual solutions. Our model, BAGEL-Canvas, trained under this
framework, achieves an 86% relative improvement over strong LMM baselines on
MathCanvas-Bench, demonstrating excellent generalization to other public math
benchmarks. Our work provides a complete toolkit-framework, datasets, and
benchmark-to unlock complex, human-like visual-aided reasoning in LMMs. Project
Page: https://mathcanvas.github.io/