MathCanvas: 다중모달 수학적 추론을 위한 내재적 시각적 사고 연쇄
MathCanvas: Intrinsic Visual Chain-of-Thought for Multimodal Mathematical Reasoning
October 16, 2025
저자: Weikang Shi, Aldrich Yu, Rongyao Fang, Houxing Ren, Ke Wang, Aojun Zhou, Changyao Tian, Xinyu Fu, Yuxuan Hu, Zimu Lu, Linjiang Huang, Si Liu, Rui Liu, Hongsheng Li
cs.AI
초록
대규모 언어 모델(LLMs)은 텍스트 기반 추론에서 뛰어난 성과를 보여왔지만, 시각적 도움에 본질적으로 의존하는 기하학과 같은 수학적 영역에서는 어려움을 겪습니다. 기존의 시각적 사고 연쇄(VCoT) 접근 방식은 경직된 외부 도구에 제한되거나 복잡한 문제 해결에 필요한 고품질의 전략적 시점의 다이어그램을 생성하지 못하는 경우가 많습니다. 이러한 격차를 해소하기 위해, 우리는 통합 대규모 다중모달 모델(LMMs)에 본질적인 VCoT 능력을 부여하기 위한 포괄적인 프레임워크인 MathCanvas를 소개합니다. 우리의 접근 방식은 두 단계로 구성됩니다. 첫째, 시각적 조작 단계에서 모델을 새로운 15.2M 쌍의 코퍼스(10M 캡션-다이어그램 쌍(MathCanvas-Imagen)과 5.2M 단계별 편집 트레이젝토리(MathCanvas-Edit))로 사전 학습시켜 다이어그램 생성 및 편집을 숙달하도록 합니다. 둘째, 전략적 시각 보조 추론 단계에서 모델을 219K 예제로 구성된 새로운 데이터셋(MathCanvas-Instruct)으로 미세 조정하여 시각적 도움을 언제 어떻게 활용할지 가르칩니다. 엄격한 평가를 위해, 우리는 모델이 시각-텍스트 혼합 솔루션을 생성해야 하는 3K 문제로 구성된 도전적인 벤치마크인 MathCanvas-Bench를 도입했습니다. 이 프레임워크 하에서 훈련된 우리의 모델, BAGEL-Canvas는 MathCanvas-Bench에서 강력한 LMM 기준선 대비 86%의 상대적 개선을 달성하며, 다른 공개 수학 벤치마크에서도 우수한 일반화 능력을 보여줍니다. 우리의 작업은 LMMs에서 복잡하고 인간과 같은 시각 보조 추론을 가능하게 하는 완전한 툴킷(프레임워크, 데이터셋, 벤치마크)을 제공합니다. 프로젝트 페이지: https://mathcanvas.github.io/
English
While Large Language Models (LLMs) have excelled in textual reasoning, they
struggle with mathematical domains like geometry that intrinsically rely on
visual aids. Existing approaches to Visual Chain-of-Thought (VCoT) are often
limited by rigid external tools or fail to generate the high-fidelity,
strategically-timed diagrams necessary for complex problem-solving. To bridge
this gap, we introduce MathCanvas, a comprehensive framework designed to endow
unified Large Multimodal Models (LMMs) with intrinsic VCoT capabilities for
mathematics. Our approach consists of two phases. First, a Visual Manipulation
stage pre-trains the model on a novel 15.2M-pair corpus, comprising 10M
caption-to-diagram pairs (MathCanvas-Imagen) and 5.2M step-by-step editing
trajectories (MathCanvas-Edit), to master diagram generation and editing.
Second, a Strategic Visual-Aided Reasoning stage fine-tunes the model on
MathCanvas-Instruct, a new 219K-example dataset of interleaved visual-textual
reasoning paths, teaching it when and how to leverage visual aids. To
facilitate rigorous evaluation, we introduce MathCanvas-Bench, a challenging
benchmark with 3K problems that require models to produce interleaved
visual-textual solutions. Our model, BAGEL-Canvas, trained under this
framework, achieves an 86% relative improvement over strong LMM baselines on
MathCanvas-Bench, demonstrating excellent generalization to other public math
benchmarks. Our work provides a complete toolkit-framework, datasets, and
benchmark-to unlock complex, human-like visual-aided reasoning in LMMs. Project
Page: https://mathcanvas.github.io/