ChatPaper.aiChatPaper

MINT-CoT: Habilitando Tokens Visuais Intercalados no Raciocínio em Cadeia para Matemática

MINT-CoT: Enabling Interleaved Visual Tokens in Mathematical Chain-of-Thought Reasoning

June 5, 2025
Autores: Xinyan Chen, Renrui Zhang, Dongzhi Jiang, Aojun Zhou, Shilin Yan, Weifeng Lin, Hongsheng Li
cs.AI

Resumo

O Chain-of-Thought (CoT) tem amplamente aprimorado o raciocínio matemático em Modelos de Linguagem de Grande Escala (LLMs), mas ainda permanece desafiador estendê-lo para domínios multimodais. Trabalhos existentes ou adotam um raciocínio textual semelhante para entrada de imagens, ou buscam intercalar sinais visuais no CoT matemático. No entanto, eles enfrentam três limitações principais para a resolução de problemas matemáticos: dependência de regiões de imagem em formato de caixa de granularidade grossa, percepção limitada de codificadores visuais em conteúdo matemático e dependência de capacidades externas para modificação visual. Neste artigo, propomos o MINT-CoT, introduzindo Tokens Matemáticos Intercalados para o raciocínio visual Chain-of-Thought. O MINT-CoT intercala adaptativamente tokens visuais relevantes nas etapas de raciocínio textual por meio de um Token de Intercalação, que seleciona dinamicamente regiões visuais de qualquer formato dentro de figuras matemáticas. Para capacitar essa funcionalidade, construímos o conjunto de dados MINT-CoT, contendo 54K problemas matemáticos alinhando cada etapa de raciocínio com regiões visuais no nível do token, acompanhado por um rigoroso pipeline de geração de dados. Apresentamos ainda uma estratégia de treinamento em três estágios para o MINT-CoT, combinando progressivamente o SFT de CoT apenas textual, o SFT de CoT intercalado e o RL de CoT intercalado, o que resulta em nosso modelo MINT-CoT-7B. Experimentos extensivos demonstram a eficácia do nosso método para o raciocínio visual intercalado eficaz em domínios matemáticos, onde o MINT-CoT-7B supera o modelo de linha de base em +34,08% no MathVista, +28,78% no GeoQA e +23,2% no MMStar, respectivamente. Nosso código e dados estão disponíveis em https://github.com/xinyan-cxy/MINT-CoT.
English
Chain-of-Thought (CoT) has widely enhanced mathematical reasoning in Large Language Models (LLMs), but it still remains challenging for extending it to multimodal domains. Existing works either adopt a similar textual reasoning for image input, or seek to interleave visual signals into mathematical CoT. However, they face three key limitations for math problem-solving: reliance on coarse-grained box-shaped image regions, limited perception of vision encoders on math content, and dependence on external capabilities for visual modification. In this paper, we propose MINT-CoT, introducing Mathematical INterleaved Tokens for Chain-of-Thought visual reasoning. MINT-CoT adaptively interleaves relevant visual tokens into textual reasoning steps via an Interleave Token, which dynamically selects visual regions of any shapes within math figures. To empower this capability, we construct the MINT-CoT dataset, containing 54K mathematical problems aligning each reasoning step with visual regions at the token level, accompanied by a rigorous data generation pipeline. We further present a three-stage MINT-CoT training strategy, progressively combining text-only CoT SFT, interleaved CoT SFT, and interleaved CoT RL, which derives our MINT-CoT-7B model. Extensive experiments demonstrate the effectiveness of our method for effective visual interleaved reasoning in mathematical domains, where MINT-CoT-7B outperforms the baseline model by +34.08% on MathVista, +28.78% on GeoQA, and +23.2% on MMStar, respectively. Our code and data are available at https://github.com/xinyan-cxy/MINT-CoT
PDF121June 6, 2025