MINT-CoT: Abilitazione di token visivi intervallati nel ragionamento a catena di pensiero matematico
MINT-CoT: Enabling Interleaved Visual Tokens in Mathematical Chain-of-Thought Reasoning
June 5, 2025
Autori: Xinyan Chen, Renrui Zhang, Dongzhi Jiang, Aojun Zhou, Shilin Yan, Weifeng Lin, Hongsheng Li
cs.AI
Abstract
Chain-of-Thought (CoT) ha ampiamente migliorato il ragionamento matematico nei Large Language Models (LLMs), ma rimane ancora una sfida estenderlo ai domini multimodali. I lavori esistenti adottano un ragionamento testuale simile per l'input di immagini o cercano di intervallare segnali visivi nel CoT matematico. Tuttavia, affrontano tre limitazioni chiave per la risoluzione di problemi matematici: la dipendenza da regioni immagine di forma rettangolare a grana grossa, la percezione limitata degli encoder visivi sui contenuti matematici e la dipendenza da capacità esterne per la modifica visiva. In questo articolo, proponiamo MINT-CoT, introducendo Mathematical INterleaved Tokens per il ragionamento visivo Chain-of-Thought. MINT-CoT intercala in modo adattivo token visivi rilevanti nei passaggi di ragionamento testuale tramite un Interleave Token, che seleziona dinamicamente regioni visive di qualsiasi forma all'interno delle figure matematiche. Per potenziare questa capacità, abbiamo costruito il dataset MINT-CoT, contenente 54K problemi matematici che allineano ogni passaggio di ragionamento con regioni visive a livello di token, accompagnato da una rigorosa pipeline di generazione dei dati. Presentiamo inoltre una strategia di addestramento MINT-CoT in tre fasi, che combina progressivamente CoT SFT solo testo, CoT SFT intervallato e CoT RL intervallato, da cui deriva il nostro modello MINT-CoT-7B. Esperimenti estensivi dimostrano l'efficacia del nostro metodo per un ragionamento visivo intervallato efficace nei domini matematici, dove MINT-CoT-7B supera il modello di riferimento rispettivamente del +34,08% su MathVista, +28,78% su GeoQA e +23,2% su MMStar. Il nostro codice e i dati sono disponibili su https://github.com/xinyan-cxy/MINT-CoT.
English
Chain-of-Thought (CoT) has widely enhanced mathematical reasoning in Large
Language Models (LLMs), but it still remains challenging for extending it to
multimodal domains. Existing works either adopt a similar textual reasoning for
image input, or seek to interleave visual signals into mathematical CoT.
However, they face three key limitations for math problem-solving: reliance on
coarse-grained box-shaped image regions, limited perception of vision encoders
on math content, and dependence on external capabilities for visual
modification. In this paper, we propose MINT-CoT, introducing Mathematical
INterleaved Tokens for Chain-of-Thought visual reasoning. MINT-CoT adaptively
interleaves relevant visual tokens into textual reasoning steps via an
Interleave Token, which dynamically selects visual regions of any shapes within
math figures. To empower this capability, we construct the MINT-CoT dataset,
containing 54K mathematical problems aligning each reasoning step with visual
regions at the token level, accompanied by a rigorous data generation pipeline.
We further present a three-stage MINT-CoT training strategy, progressively
combining text-only CoT SFT, interleaved CoT SFT, and interleaved CoT RL, which
derives our MINT-CoT-7B model. Extensive experiments demonstrate the
effectiveness of our method for effective visual interleaved reasoning in
mathematical domains, where MINT-CoT-7B outperforms the baseline model by
+34.08% on MathVista, +28.78% on GeoQA, and +23.2% on MMStar, respectively. Our
code and data are available at https://github.com/xinyan-cxy/MINT-CoT