MathCanvas : Chaîne de pensée visuelle intrinsèque pour le raisonnement mathématique multimodal

papers.abstract

Bien que les modèles de langage de grande taille (LLMs) excellent dans le raisonnement textuel, ils peinent dans les domaines mathématiques comme la géométrie, qui reposent intrinsèquement sur des aides visuelles. Les approches existantes de la Chaîne de Pensée Visuelle (VCoT) sont souvent limitées par des outils externes rigides ou échouent à générer des diagrammes de haute fidélité et stratégiquement synchronisés, nécessaires pour résoudre des problèmes complexes. Pour combler cette lacune, nous introduisons MathCanvas, un cadre complet conçu pour doter les modèles multimodaux de grande taille unifiés (LMMs) de capacités intrinsèques de VCoT pour les mathématiques. Notre approche se compose de deux phases. Premièrement, une étape de Manipulation Visuelle pré-entraîne le modèle sur un nouveau corpus de 15,2 millions de paires, comprenant 10 millions de paires légende-diagramme (MathCanvas-Imagen) et 5,2 millions de trajectoires d'édition étape par étape (MathCanvas-Edit), pour maîtriser la génération et l'édition de diagrammes. Deuxièmement, une étape de Raisonnement Stratégique Assisté Visuellement affine le modèle sur MathCanvas-Instruct, un nouvel ensemble de données de 219 000 exemples de chemins de raisonnement visuel-textuel entrelacés, lui apprenant quand et comment tirer parti des aides visuelles. Pour faciliter une évaluation rigoureuse, nous introduisons MathCanvas-Bench, un benchmark exigeant avec 3 000 problèmes nécessitant que les modèles produisent des solutions visuelles-textuelles entrelacées. Notre modèle, BAGEL-Canvas, entraîné dans ce cadre, réalise une amélioration relative de 86 % par rapport aux solides modèles de base LMM sur MathCanvas-Bench, démontrant une excellente généralisation sur d'autres benchmarks mathématiques publics. Notre travail fournit une boîte à outils complète - cadre, ensembles de données et benchmark - pour débloquer un raisonnement assisté visuellement complexe et semblable à celui des humains dans les LMMs. Page du projet : https://mathcanvas.github.io/

English

While Large Language Models (LLMs) have excelled in textual reasoning, they struggle with mathematical domains like geometry that intrinsically rely on visual aids. Existing approaches to Visual Chain-of-Thought (VCoT) are often limited by rigid external tools or fail to generate the high-fidelity, strategically-timed diagrams necessary for complex problem-solving. To bridge this gap, we introduce MathCanvas, a comprehensive framework designed to endow unified Large Multimodal Models (LMMs) with intrinsic VCoT capabilities for mathematics. Our approach consists of two phases. First, a Visual Manipulation stage pre-trains the model on a novel 15.2M-pair corpus, comprising 10M caption-to-diagram pairs (MathCanvas-Imagen) and 5.2M step-by-step editing trajectories (MathCanvas-Edit), to master diagram generation and editing. Second, a Strategic Visual-Aided Reasoning stage fine-tunes the model on MathCanvas-Instruct, a new 219K-example dataset of interleaved visual-textual reasoning paths, teaching it when and how to leverage visual aids. To facilitate rigorous evaluation, we introduce MathCanvas-Bench, a challenging benchmark with 3K problems that require models to produce interleaved visual-textual solutions. Our model, BAGEL-Canvas, trained under this framework, achieves an 86% relative improvement over strong LMM baselines on MathCanvas-Bench, demonstrating excellent generalization to other public math benchmarks. Our work provides a complete toolkit-framework, datasets, and benchmark-to unlock complex, human-like visual-aided reasoning in LMMs. Project Page: https://mathcanvas.github.io/

MathCanvas : Chaîne de pensée visuelle intrinsèque pour le raisonnement mathématique multimodal

MathCanvas: Intrinsic Visual Chain-of-Thought for Multimodal Mathematical Reasoning

papers.abstract

Support