ChatPaper.aiChatPaper

MINT-CoT: Включение чередующихся визуальных токенов в математические рассуждения по цепочке мыслей

MINT-CoT: Enabling Interleaved Visual Tokens in Mathematical Chain-of-Thought Reasoning

June 5, 2025
Авторы: Xinyan Chen, Renrui Zhang, Dongzhi Jiang, Aojun Zhou, Shilin Yan, Weifeng Lin, Hongsheng Li
cs.AI

Аннотация

Метод Chain-of-Thought (CoT) значительно улучшил математические рассуждения в больших языковых моделях (LLM), однако его применение в мультимодальных областях остается сложной задачей. Существующие подходы либо используют аналогичное текстовое рассуждение для обработки изображений, либо пытаются интегрировать визуальные сигналы в математический CoT. Однако они сталкиваются с тремя ключевыми ограничениями при решении математических задач: зависимость от грубо выделенных прямоугольных областей изображений, ограниченное восприятие математического контента визуальными кодировщиками и необходимость внешних возможностей для визуальной модификации. В данной работе мы предлагаем MINT-CoT, вводя Математические Интегрированные Токены (Mathematical INterleaved Tokens) для визуального рассуждения в рамках Chain-of-Thought. MINT-CoT адаптивно интегрирует релевантные визуальные токены в текстовые шаги рассуждения с помощью Токена Интеграции, который динамически выбирает области любой формы внутри математических изображений. Для реализации этой возможности мы создали набор данных MINT-CoT, содержащий 54 тыс. математических задач, где каждый шаг рассуждения связан с визуальными областями на уровне токенов, а также разработали строгий процесс генерации данных. Кроме того, мы представляем трехэтапную стратегию обучения MINT-CoT, постепенно объединяющую тонкую настройку (SFT) на текстовом CoT, SFT на интегрированном CoT и обучение с подкреплением (RL) на интегрированном CoT, что приводит к созданию модели MINT-CoT-7B. Эксперименты демонстрируют эффективность нашего метода для визуального интегрированного рассуждения в математических областях, где MINT-CoT-7B превосходит базовую модель на +34,08% на MathVista, +28,78% на GeoQA и +23,2% на MMStar соответственно. Наш код и данные доступны по адресу https://github.com/xinyan-cxy/MINT-CoT.
English
Chain-of-Thought (CoT) has widely enhanced mathematical reasoning in Large Language Models (LLMs), but it still remains challenging for extending it to multimodal domains. Existing works either adopt a similar textual reasoning for image input, or seek to interleave visual signals into mathematical CoT. However, they face three key limitations for math problem-solving: reliance on coarse-grained box-shaped image regions, limited perception of vision encoders on math content, and dependence on external capabilities for visual modification. In this paper, we propose MINT-CoT, introducing Mathematical INterleaved Tokens for Chain-of-Thought visual reasoning. MINT-CoT adaptively interleaves relevant visual tokens into textual reasoning steps via an Interleave Token, which dynamically selects visual regions of any shapes within math figures. To empower this capability, we construct the MINT-CoT dataset, containing 54K mathematical problems aligning each reasoning step with visual regions at the token level, accompanied by a rigorous data generation pipeline. We further present a three-stage MINT-CoT training strategy, progressively combining text-only CoT SFT, interleaved CoT SFT, and interleaved CoT RL, which derives our MINT-CoT-7B model. Extensive experiments demonstrate the effectiveness of our method for effective visual interleaved reasoning in mathematical domains, where MINT-CoT-7B outperforms the baseline model by +34.08% on MathVista, +28.78% on GeoQA, and +23.2% on MMStar, respectively. Our code and data are available at https://github.com/xinyan-cxy/MINT-CoT
PDF121June 6, 2025