MINT-CoT: Habilitación de tokens visuales intercalados en el razonamiento matemático de cadena de pensamiento

Resumen

El razonamiento en cadena (Chain-of-Thought, CoT) ha mejorado ampliamente el razonamiento matemático en los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés), pero sigue siendo un desafío extenderlo a dominios multimodales. Los trabajos existentes adoptan un razonamiento textual similar para entradas de imágenes o buscan intercalar señales visuales en el CoT matemático. Sin embargo, enfrentan tres limitaciones clave para la resolución de problemas matemáticos: la dependencia de regiones de imágenes de forma rectangular de grano grueso, la percepción limitada de los codificadores visuales sobre el contenido matemático y la dependencia de capacidades externas para la modificación visual. En este artículo, proponemos MINT-CoT, introduciendo Tokens Matemáticos Intercalados (Mathematical INterleaved Tokens) para el razonamiento visual en cadena. MINT-CoT intercala de manera adaptativa tokens visuales relevantes en los pasos de razonamiento textual mediante un Token de Intercalado, que selecciona dinámicamente regiones visuales de cualquier forma dentro de figuras matemáticas. Para potenciar esta capacidad, construimos el conjunto de datos MINT-CoT, que contiene 54K problemas matemáticos alineando cada paso de razonamiento con regiones visuales a nivel de token, junto con una rigurosa pipeline de generación de datos. Además, presentamos una estrategia de entrenamiento de tres etapas para MINT-CoT, combinando progresivamente el ajuste fino de CoT solo con texto (text-only CoT SFT), el ajuste fino de CoT intercalado (interleaved CoT SFT) y el aprendizaje por refuerzo de CoT intercalado (interleaved CoT RL), lo que deriva en nuestro modelo MINT-CoT-7B. Experimentos extensivos demuestran la efectividad de nuestro método para un razonamiento visual intercalado efectivo en dominios matemáticos, donde MINT-CoT-7B supera al modelo de referencia en +34.08% en MathVista, +28.78% en GeoQA y +23.2% en MMStar, respectivamente. Nuestro código y datos están disponibles en https://github.com/xinyan-cxy/MINT-CoT.

English

Chain-of-Thought (CoT) has widely enhanced mathematical reasoning in Large Language Models (LLMs), but it still remains challenging for extending it to multimodal domains. Existing works either adopt a similar textual reasoning for image input, or seek to interleave visual signals into mathematical CoT. However, they face three key limitations for math problem-solving: reliance on coarse-grained box-shaped image regions, limited perception of vision encoders on math content, and dependence on external capabilities for visual modification. In this paper, we propose MINT-CoT, introducing Mathematical INterleaved Tokens for Chain-of-Thought visual reasoning. MINT-CoT adaptively interleaves relevant visual tokens into textual reasoning steps via an Interleave Token, which dynamically selects visual regions of any shapes within math figures. To empower this capability, we construct the MINT-CoT dataset, containing 54K mathematical problems aligning each reasoning step with visual regions at the token level, accompanied by a rigorous data generation pipeline. We further present a three-stage MINT-CoT training strategy, progressively combining text-only CoT SFT, interleaved CoT SFT, and interleaved CoT RL, which derives our MINT-CoT-7B model. Extensive experiments demonstrate the effectiveness of our method for effective visual interleaved reasoning in mathematical domains, where MINT-CoT-7B outperforms the baseline model by +34.08% on MathVista, +28.78% on GeoQA, and +23.2% on MMStar, respectively. Our code and data are available at https://github.com/xinyan-cxy/MINT-CoT

MINT-CoT: Habilitación de tokens visuales intercalados en el razonamiento matemático de cadena de pensamiento

MINT-CoT: Enabling Interleaved Visual Tokens in Mathematical Chain-of-Thought Reasoning

Resumen

Support