ChatPaper.aiChatPaper

MINT-CoT : Activation des jetons visuels entrelacés dans le raisonnement en chaîne de pensée mathématique

MINT-CoT: Enabling Interleaved Visual Tokens in Mathematical Chain-of-Thought Reasoning

June 5, 2025
Auteurs: Xinyan Chen, Renrui Zhang, Dongzhi Jiang, Aojun Zhou, Shilin Yan, Weifeng Lin, Hongsheng Li
cs.AI

Résumé

La méthode Chain-of-Thought (CoT) a largement amélioré le raisonnement mathématique dans les grands modèles de langage (LLMs), mais son extension aux domaines multimodaux reste un défi. Les travaux existants adoptent soit un raisonnement textuel similaire pour les entrées d'images, soit cherchent à intercaler des signaux visuels dans le CoT mathématique. Cependant, ils rencontrent trois limitations majeures pour la résolution de problèmes mathématiques : la dépendance à des régions d'images grossières de forme rectangulaire, la perception limitée des encodeurs visuels sur le contenu mathématique, et la dépendance à des capacités externes pour la modification visuelle. Dans cet article, nous proposons MINT-CoT, introduisant des **Mathematical INterleaved Tokens** pour le raisonnement visuel dans le cadre de la méthode Chain-of-Thought. MINT-CoT intercale de manière adaptative des tokens visuels pertinents dans les étapes de raisonnement textuel via un **Interleave Token**, qui sélectionne dynamiquement des régions visuelles de toute forme au sein des figures mathématiques. Pour renforcer cette capacité, nous construisons le jeu de données MINT-CoT, contenant 54 000 problèmes mathématiques alignant chaque étape de raisonnement avec des régions visuelles au niveau du token, accompagné d'un pipeline rigoureux de génération de données. Nous présentons également une stratégie d'entraînement en trois étapes pour MINT-CoT, combinant progressivement un **CoT textuel SFT**, un **CoT intercalé SFT**, et un **CoT intercalé RL**, ce qui aboutit à notre modèle MINT-CoT-7B. Des expériences approfondies démontrent l'efficacité de notre méthode pour un raisonnement visuel intercalé efficace dans les domaines mathématiques, où MINT-CoT-7B surpasse le modèle de référence de +34,08 % sur MathVista, +28,78 % sur GeoQA, et +23,2 % sur MMStar, respectivement. Notre code et nos données sont disponibles à l'adresse suivante : https://github.com/xinyan-cxy/MINT-CoT.
English
Chain-of-Thought (CoT) has widely enhanced mathematical reasoning in Large Language Models (LLMs), but it still remains challenging for extending it to multimodal domains. Existing works either adopt a similar textual reasoning for image input, or seek to interleave visual signals into mathematical CoT. However, they face three key limitations for math problem-solving: reliance on coarse-grained box-shaped image regions, limited perception of vision encoders on math content, and dependence on external capabilities for visual modification. In this paper, we propose MINT-CoT, introducing Mathematical INterleaved Tokens for Chain-of-Thought visual reasoning. MINT-CoT adaptively interleaves relevant visual tokens into textual reasoning steps via an Interleave Token, which dynamically selects visual regions of any shapes within math figures. To empower this capability, we construct the MINT-CoT dataset, containing 54K mathematical problems aligning each reasoning step with visual regions at the token level, accompanied by a rigorous data generation pipeline. We further present a three-stage MINT-CoT training strategy, progressively combining text-only CoT SFT, interleaved CoT SFT, and interleaved CoT RL, which derives our MINT-CoT-7B model. Extensive experiments demonstrate the effectiveness of our method for effective visual interleaved reasoning in mathematical domains, where MINT-CoT-7B outperforms the baseline model by +34.08% on MathVista, +28.78% on GeoQA, and +23.2% on MMStar, respectively. Our code and data are available at https://github.com/xinyan-cxy/MINT-CoT
PDF121June 6, 2025