MINT-CoT: Het mogelijk maken van interleaved visuele tokens in wiskundige keten-van-gedachten-redenering
MINT-CoT: Enabling Interleaved Visual Tokens in Mathematical Chain-of-Thought Reasoning
June 5, 2025
Auteurs: Xinyan Chen, Renrui Zhang, Dongzhi Jiang, Aojun Zhou, Shilin Yan, Weifeng Lin, Hongsheng Li
cs.AI
Samenvatting
Chain-of-Thought (CoT) heeft het wiskundig redeneren in Large Language Models (LLMs) aanzienlijk verbeterd, maar het blijft een uitdaging om dit uit te breiden naar multimodale domeinen. Bestaande werken passen ofwel een vergelijkbare tekstuele redenering toe voor beeldinvoer, of proberen visuele signalen te verweven in wiskundige CoT. Ze kampen echter met drie belangrijke beperkingen bij het oplossen van wiskundige problemen: afhankelijkheid van grofkorrelige, rechthoekige beeldregio's, beperkte perceptie van visuele encoders op wiskundige inhoud, en afhankelijkheid van externe mogelijkheden voor visuele aanpassing. In dit artikel stellen we MINT-CoT voor, waarbij Mathematical INterleaved Tokens worden geïntroduceerd voor Chain-of-Thought visuele redenering. MINT-CoT verweeft adaptief relevante visuele tokens in tekstuele redeneerstappen via een Interleave Token, dat dynamisch visuele regio's van elke vorm binnen wiskundige figuren selecteert. Om deze mogelijkheid te versterken, hebben we de MINT-CoT dataset geconstrueerd, die 54K wiskundige problemen bevat waarbij elke redeneerstap op tokenniveau wordt uitgelijnd met visuele regio's, vergezeld van een rigoureuze datageneratiepipeline. We presenteren verder een driestaps MINT-CoT trainingsstrategie, waarbij progressief text-only CoT SFT, interleaved CoT SFT en interleaved CoT RL worden gecombineerd, wat resulteert in ons MINT-CoT-7B model. Uitgebreide experimenten tonen de effectiviteit van onze methode aan voor effectieve visuele verweven redenering in wiskundige domeinen, waarbij MINT-CoT-7B het baseline model overtreft met +34,08% op MathVista, +28,78% op GeoQA en +23,2% op MMStar. Onze code en data zijn beschikbaar op https://github.com/xinyan-cxy/MINT-CoT.
English
Chain-of-Thought (CoT) has widely enhanced mathematical reasoning in Large
Language Models (LLMs), but it still remains challenging for extending it to
multimodal domains. Existing works either adopt a similar textual reasoning for
image input, or seek to interleave visual signals into mathematical CoT.
However, they face three key limitations for math problem-solving: reliance on
coarse-grained box-shaped image regions, limited perception of vision encoders
on math content, and dependence on external capabilities for visual
modification. In this paper, we propose MINT-CoT, introducing Mathematical
INterleaved Tokens for Chain-of-Thought visual reasoning. MINT-CoT adaptively
interleaves relevant visual tokens into textual reasoning steps via an
Interleave Token, which dynamically selects visual regions of any shapes within
math figures. To empower this capability, we construct the MINT-CoT dataset,
containing 54K mathematical problems aligning each reasoning step with visual
regions at the token level, accompanied by a rigorous data generation pipeline.
We further present a three-stage MINT-CoT training strategy, progressively
combining text-only CoT SFT, interleaved CoT SFT, and interleaved CoT RL, which
derives our MINT-CoT-7B model. Extensive experiments demonstrate the
effectiveness of our method for effective visual interleaved reasoning in
mathematical domains, where MINT-CoT-7B outperforms the baseline model by
+34.08% on MathVista, +28.78% on GeoQA, and +23.2% on MMStar, respectively. Our
code and data are available at https://github.com/xinyan-cxy/MINT-CoT