MINT-CoT: 数学的連鎖思考推論における視覚トークンのインターリーブを可能にする
MINT-CoT: Enabling Interleaved Visual Tokens in Mathematical Chain-of-Thought Reasoning
June 5, 2025
著者: Xinyan Chen, Renrui Zhang, Dongzhi Jiang, Aojun Zhou, Shilin Yan, Weifeng Lin, Hongsheng Li
cs.AI
要旨
Chain-of-Thought(CoT)は大規模言語モデル(LLMs)における数学的推論を広く向上させてきましたが、これをマルチモーダル領域に拡張することは依然として課題となっています。既存の研究では、画像入力に対して同様のテキストベースの推論を採用するか、数学的CoTに視覚信号を織り交ぜようと試みています。しかし、これらは数学問題解決において3つの主要な制限に直面しています:粗い粒度のボックス形状の画像領域への依存、数学的コンテンツに対する視覚エンコーダの限定的な知覚、視覚的修正のための外部能力への依存です。本論文では、MINT-CoTを提案し、Chain-of-Thought視覚推論のためのMathematical INterleaved Tokensを導入します。MINT-CoTは、Interleave Tokenを介して関連する視覚トークンをテキスト推論ステップに適応的に織り交ぜ、数学図形内の任意の形状の視覚領域を動的に選択します。この能力を強化するために、54Kの数学問題を含むMINT-CoTデータセットを構築し、各推論ステップをトークンレベルで視覚領域と整合させ、厳密なデータ生成パイプラインを伴わせました。さらに、テキストのみのCoT SFT、織り交ぜたCoT SFT、織り交ぜたCoT RLを段階的に組み合わせた3段階のMINT-CoTトレーニング戦略を提示し、MINT-CoT-7Bモデルを導出しました。広範な実験により、数学領域における効果的な視覚的織り交ぜ推論の有効性が実証され、MINT-CoT-7Bはベースラインモデルに対してMathVistaで+34.08%、GeoQAで+28.78%、MMStarで+23.2%の性能向上を示しました。私たちのコードとデータはhttps://github.com/xinyan-cxy/MINT-CoTで公開されています。
English
Chain-of-Thought (CoT) has widely enhanced mathematical reasoning in Large
Language Models (LLMs), but it still remains challenging for extending it to
multimodal domains. Existing works either adopt a similar textual reasoning for
image input, or seek to interleave visual signals into mathematical CoT.
However, they face three key limitations for math problem-solving: reliance on
coarse-grained box-shaped image regions, limited perception of vision encoders
on math content, and dependence on external capabilities for visual
modification. In this paper, we propose MINT-CoT, introducing Mathematical
INterleaved Tokens for Chain-of-Thought visual reasoning. MINT-CoT adaptively
interleaves relevant visual tokens into textual reasoning steps via an
Interleave Token, which dynamically selects visual regions of any shapes within
math figures. To empower this capability, we construct the MINT-CoT dataset,
containing 54K mathematical problems aligning each reasoning step with visual
regions at the token level, accompanied by a rigorous data generation pipeline.
We further present a three-stage MINT-CoT training strategy, progressively
combining text-only CoT SFT, interleaved CoT SFT, and interleaved CoT RL, which
derives our MINT-CoT-7B model. Extensive experiments demonstrate the
effectiveness of our method for effective visual interleaved reasoning in
mathematical domains, where MINT-CoT-7B outperforms the baseline model by
+34.08% on MathVista, +28.78% on GeoQA, and +23.2% on MMStar, respectively. Our
code and data are available at https://github.com/xinyan-cxy/MINT-CoT