ChatPaper.aiChatPaper

MathCanvas: マルチモーダル数学推論のための本質的視覚的連鎖思考

MathCanvas: Intrinsic Visual Chain-of-Thought for Multimodal Mathematical Reasoning

October 16, 2025
著者: Weikang Shi, Aldrich Yu, Rongyao Fang, Houxing Ren, Ke Wang, Aojun Zhou, Changyao Tian, Xinyu Fu, Yuxuan Hu, Zimu Lu, Linjiang Huang, Si Liu, Rui Liu, Hongsheng Li
cs.AI

要旨

大規模言語モデル(LLMs)はテキスト推論において優れた性能を発揮しているが、視覚的補助に本質的に依存する幾何学などの数学的領域では苦戦している。既存の視覚的連鎖思考(VCoT)アプローチは、硬直的な外部ツールに制限されるか、複雑な問題解決に必要な高精度で戦略的にタイミングを計った図表の生成に失敗することが多い。このギャップを埋めるため、我々はMathCanvasを導入する。これは、統一された大規模マルチモーダルモデル(LMMs)に数学における本質的なVCoT能力を付与するための包括的なフレームワークである。我々のアプローチは2段階で構成される。まず、視覚的操作段階では、10Mのキャプションと図表のペア(MathCanvas-Imagen)と5.2Mのステップバイステップ編集軌跡(MathCanvas-Edit)からなる新規の15.2Mペアのコーパスを用いてモデルを事前学習し、図表の生成と編集を習得させる。次に、戦略的視覚補助推論段階では、MathCanvas-Instructという新たな219K例の視覚的テキスト的推論パスを織り交ぜたデータセットでモデルを微調整し、視覚的補助をいつどのように活用するかを教える。厳密な評価を可能にするため、我々はMathCanvas-Benchを導入する。これは、モデルが視覚的テキスト的解決策を織り交ぜて生成する必要がある3Kの問題からなる挑戦的なベンチマークである。このフレームワークの下で訓練された我々のモデル、BAGEL-Canvasは、MathCanvas-Benchにおいて強力なLMMベースラインに対して86%の相対的改善を達成し、他の公開数学ベンチマークへの優れた一般化能力を示す。我々の研究は、LMMsにおいて複雑で人間のような視覚補助推論を実現するための完全なツールキット(フレームワーク、データセット、ベンチマーク)を提供する。プロジェクトページ: https://mathcanvas.github.io/
English
While Large Language Models (LLMs) have excelled in textual reasoning, they struggle with mathematical domains like geometry that intrinsically rely on visual aids. Existing approaches to Visual Chain-of-Thought (VCoT) are often limited by rigid external tools or fail to generate the high-fidelity, strategically-timed diagrams necessary for complex problem-solving. To bridge this gap, we introduce MathCanvas, a comprehensive framework designed to endow unified Large Multimodal Models (LMMs) with intrinsic VCoT capabilities for mathematics. Our approach consists of two phases. First, a Visual Manipulation stage pre-trains the model on a novel 15.2M-pair corpus, comprising 10M caption-to-diagram pairs (MathCanvas-Imagen) and 5.2M step-by-step editing trajectories (MathCanvas-Edit), to master diagram generation and editing. Second, a Strategic Visual-Aided Reasoning stage fine-tunes the model on MathCanvas-Instruct, a new 219K-example dataset of interleaved visual-textual reasoning paths, teaching it when and how to leverage visual aids. To facilitate rigorous evaluation, we introduce MathCanvas-Bench, a challenging benchmark with 3K problems that require models to produce interleaved visual-textual solutions. Our model, BAGEL-Canvas, trained under this framework, achieves an 86% relative improvement over strong LMM baselines on MathCanvas-Bench, demonstrating excellent generalization to other public math benchmarks. Our work provides a complete toolkit-framework, datasets, and benchmark-to unlock complex, human-like visual-aided reasoning in LMMs. Project Page: https://mathcanvas.github.io/
PDF222October 17, 2025