MathCanvas: Intrinsieke Visuele Ketting van Gedachten voor Multimodale Wiskundige Redenering

Samenvatting

Hoewel Large Language Models (LLMs) uitblinken in tekstueel redeneren, hebben ze moeite met wiskundige domeinen zoals geometrie die intrinsiek afhankelijk zijn van visuele hulpmiddelen. Bestaande benaderingen van Visual Chain-of-Thought (VCoT) worden vaak beperkt door rigide externe tools of slagen er niet in om de hoogwaardige, strategisch getimede diagrammen te genereren die nodig zijn voor complexe probleemoplossing. Om deze kloof te overbruggen, introduceren we MathCanvas, een uitgebreid framework ontworpen om geünificeerde Large Multimodal Models (LMMs) uit te rusten met intrinsieke VCoT-mogelijkheden voor wiskunde. Onze aanpak bestaat uit twee fasen. Eerst wordt in een Visual Manipulation-fase het model voorgetraind op een nieuw corpus van 15,2 miljoen paren, bestaande uit 10 miljoen caption-to-diagram paren (MathCanvas-Imagen) en 5,2 miljoen stap-voor-stap bewerkingstrajecten (MathCanvas-Edit), om het genereren en bewerken van diagrammen onder de knie te krijgen. Vervolgens wordt in een Strategic Visual-Aided Reasoning-fase het model afgestemd op MathCanvas-Instruct, een nieuwe dataset van 219.000 voorbeelden van verweven visueel-tekstuele redeneerpaden, waarbij het leert wanneer en hoe het visuele hulpmiddelen moet inzetten. Om een rigoureuze evaluatie mogelijk te maken, introduceren we MathCanvas-Bench, een uitdagende benchmark met 3.000 problemen die modellen vereisen om verweven visueel-tekstuele oplossingen te produceren. Ons model, BAGEL-Canvas, getraind onder dit framework, behaalt een relatieve verbetering van 86% ten opzichte van sterke LMM-baselines op MathCanvas-Bench, wat een uitstekende generalisatie naar andere openbare wiskunde-benchmarks aantoont. Ons werk biedt een complete toolkit - framework, datasets en benchmark - om complex, mensachtig visueel ondersteund redeneren in LMMs mogelijk te maken. Projectpagina: https://mathcanvas.github.io/

English

While Large Language Models (LLMs) have excelled in textual reasoning, they struggle with mathematical domains like geometry that intrinsically rely on visual aids. Existing approaches to Visual Chain-of-Thought (VCoT) are often limited by rigid external tools or fail to generate the high-fidelity, strategically-timed diagrams necessary for complex problem-solving. To bridge this gap, we introduce MathCanvas, a comprehensive framework designed to endow unified Large Multimodal Models (LMMs) with intrinsic VCoT capabilities for mathematics. Our approach consists of two phases. First, a Visual Manipulation stage pre-trains the model on a novel 15.2M-pair corpus, comprising 10M caption-to-diagram pairs (MathCanvas-Imagen) and 5.2M step-by-step editing trajectories (MathCanvas-Edit), to master diagram generation and editing. Second, a Strategic Visual-Aided Reasoning stage fine-tunes the model on MathCanvas-Instruct, a new 219K-example dataset of interleaved visual-textual reasoning paths, teaching it when and how to leverage visual aids. To facilitate rigorous evaluation, we introduce MathCanvas-Bench, a challenging benchmark with 3K problems that require models to produce interleaved visual-textual solutions. Our model, BAGEL-Canvas, trained under this framework, achieves an 86% relative improvement over strong LMM baselines on MathCanvas-Bench, demonstrating excellent generalization to other public math benchmarks. Our work provides a complete toolkit-framework, datasets, and benchmark-to unlock complex, human-like visual-aided reasoning in LMMs. Project Page: https://mathcanvas.github.io/

MathCanvas: Intrinsieke Visuele Ketting van Gedachten voor Multimodale Wiskundige Redenering

MathCanvas: Intrinsic Visual Chain-of-Thought for Multimodal Mathematical Reasoning

Samenvatting

Support