MINT-CoT: Habilitación de tokens visuales intercalados en el razonamiento matemático de cadena de pensamiento
MINT-CoT: Enabling Interleaved Visual Tokens in Mathematical Chain-of-Thought Reasoning
June 5, 2025
Autores: Xinyan Chen, Renrui Zhang, Dongzhi Jiang, Aojun Zhou, Shilin Yan, Weifeng Lin, Hongsheng Li
cs.AI
Resumen
El razonamiento en cadena (Chain-of-Thought, CoT) ha mejorado ampliamente el razonamiento matemático en los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés), pero sigue siendo un desafío extenderlo a dominios multimodales. Los trabajos existentes adoptan un razonamiento textual similar para entradas de imágenes o buscan intercalar señales visuales en el CoT matemático. Sin embargo, enfrentan tres limitaciones clave para la resolución de problemas matemáticos: la dependencia de regiones de imágenes de forma rectangular de grano grueso, la percepción limitada de los codificadores visuales sobre el contenido matemático y la dependencia de capacidades externas para la modificación visual. En este artículo, proponemos MINT-CoT, introduciendo Tokens Matemáticos Intercalados (Mathematical INterleaved Tokens) para el razonamiento visual en cadena. MINT-CoT intercala de manera adaptativa tokens visuales relevantes en los pasos de razonamiento textual mediante un Token de Intercalado, que selecciona dinámicamente regiones visuales de cualquier forma dentro de figuras matemáticas. Para potenciar esta capacidad, construimos el conjunto de datos MINT-CoT, que contiene 54K problemas matemáticos alineando cada paso de razonamiento con regiones visuales a nivel de token, junto con una rigurosa pipeline de generación de datos. Además, presentamos una estrategia de entrenamiento de tres etapas para MINT-CoT, combinando progresivamente el ajuste fino de CoT solo con texto (text-only CoT SFT), el ajuste fino de CoT intercalado (interleaved CoT SFT) y el aprendizaje por refuerzo de CoT intercalado (interleaved CoT RL), lo que deriva en nuestro modelo MINT-CoT-7B. Experimentos extensivos demuestran la efectividad de nuestro método para un razonamiento visual intercalado efectivo en dominios matemáticos, donde MINT-CoT-7B supera al modelo de referencia en +34.08% en MathVista, +28.78% en GeoQA y +23.2% en MMStar, respectivamente. Nuestro código y datos están disponibles en https://github.com/xinyan-cxy/MINT-CoT.
English
Chain-of-Thought (CoT) has widely enhanced mathematical reasoning in Large
Language Models (LLMs), but it still remains challenging for extending it to
multimodal domains. Existing works either adopt a similar textual reasoning for
image input, or seek to interleave visual signals into mathematical CoT.
However, they face three key limitations for math problem-solving: reliance on
coarse-grained box-shaped image regions, limited perception of vision encoders
on math content, and dependence on external capabilities for visual
modification. In this paper, we propose MINT-CoT, introducing Mathematical
INterleaved Tokens for Chain-of-Thought visual reasoning. MINT-CoT adaptively
interleaves relevant visual tokens into textual reasoning steps via an
Interleave Token, which dynamically selects visual regions of any shapes within
math figures. To empower this capability, we construct the MINT-CoT dataset,
containing 54K mathematical problems aligning each reasoning step with visual
regions at the token level, accompanied by a rigorous data generation pipeline.
We further present a three-stage MINT-CoT training strategy, progressively
combining text-only CoT SFT, interleaved CoT SFT, and interleaved CoT RL, which
derives our MINT-CoT-7B model. Extensive experiments demonstrate the
effectiveness of our method for effective visual interleaved reasoning in
mathematical domains, where MINT-CoT-7B outperforms the baseline model by
+34.08% on MathVista, +28.78% on GeoQA, and +23.2% on MMStar, respectively. Our
code and data are available at https://github.com/xinyan-cxy/MINT-CoT