MathCoder-VL: 視覚とコードの統合による高度なマルチモーダル数学推論
MathCoder-VL: Bridging Vision and Code for Enhanced Multimodal Mathematical Reasoning
May 15, 2025
著者: Ke Wang, Junting Pan, Linda Wei, Aojun Zhou, Weikang Shi, Zimu Lu, Han Xiao, Yunqiao Yang, Houxing Ren, Mingjie Zhan, Hongsheng Li
cs.AI
要旨
大規模マルチモーダルモデルの訓練に広く用いられる自然言語画像キャプションデータセットは、主に自然なシナリオに焦点を当てており、問題解決に不可欠な数学的図形の複雑な詳細を見落としているため、現在のマルチモーダル数学推論におけるLMMの進展を妨げている。この問題に対処するため、コードをクロスモーダルアラインメントの監督として活用することを提案する。なぜなら、コードは対応する図形を生成するために必要なすべての情報を内在的にエンコードしており、二つのモダリティ間の正確な接続を確立するからである。具体的には、モデルインザループアプローチを用いて、画像からコードへのモデルとデータセットを共同開発し、画像からコードへのモデルFigCodifierと、これまでで最大の画像コードデータセットであるImgCode-8.6Mを構築した。さらに、FigCodifierを利用して新しい数学的図形を合成し、高品質なマルチモーダル数学指示ファインチューニングデータセットMM-MathInstruct-3Mを構築した。最後に、ImgCode-8.6Mでクロスモーダルアラインメントを訓練し、その後MM-MathInstruct-3Mでファインチューニングを行ったMathCoder-VLを提示する。我々のモデルは、6つのメトリクス全てにおいて新たなオープンソースSOTAを達成した。特に、MathVistaの幾何学問題解決サブセットにおいて、GPT-4oとClaude 3.5 Sonnetをそれぞれ8.9%と9.2%上回った。データセットとモデルはhttps://github.com/mathllm/MathCoderで公開される。
English
Natural language image-caption datasets, widely used for training Large
Multimodal Models, mainly focus on natural scenarios and overlook the intricate
details of mathematical figures that are critical for problem-solving,
hindering the advancement of current LMMs in multimodal mathematical reasoning.
To this end, we propose leveraging code as supervision for cross-modal
alignment, since code inherently encodes all information needed to generate
corresponding figures, establishing a precise connection between the two
modalities. Specifically, we co-develop our image-to-code model and dataset
with model-in-the-loop approach, resulting in an image-to-code model,
FigCodifier and ImgCode-8.6M dataset, the largest image-code dataset to date.
Furthermore, we utilize FigCodifier to synthesize novel mathematical figures
and then construct MM-MathInstruct-3M, a high-quality multimodal math
instruction fine-tuning dataset. Finally, we present MathCoder-VL, trained with
ImgCode-8.6M for cross-modal alignment and subsequently fine-tuned on
MM-MathInstruct-3M for multimodal math problem solving. Our model achieves a
new open-source SOTA across all six metrics. Notably, it surpasses GPT-4o and
Claude 3.5 Sonnet in the geometry problem-solving subset of MathVista,
achieving improvements of 8.9% and 9.2%. The dataset and models will be
released at https://github.com/mathllm/MathCoder.