MINT-CoT: Ermöglichung verschachtelter visueller Tokens in mathematischer Chain-of-Thought-Reasoning
MINT-CoT: Enabling Interleaved Visual Tokens in Mathematical Chain-of-Thought Reasoning
June 5, 2025
Autoren: Xinyan Chen, Renrui Zhang, Dongzhi Jiang, Aojun Zhou, Shilin Yan, Weifeng Lin, Hongsheng Li
cs.AI
Zusammenfassung
Chain-of-Thought (CoT) hat das mathematische Denken in Large Language Models (LLMs) erheblich verbessert, doch die Erweiterung auf multimodale Domänen bleibt eine Herausforderung. Bisherige Ansätze verwenden entweder eine ähnliche textbasierte Argumentation für Bild-Eingaben oder versuchen, visuelle Signale in mathematische CoT einzubetten. Allerdings stoßen sie bei der Lösung mathematischer Probleme auf drei wesentliche Einschränkungen: die Abhängigkeit von grob umrissenen, rechteckigen Bildregionen, die begrenzte Wahrnehmungsfähigkeit von Vision-Encodern für mathematische Inhalte und die Notwendigkeit externer Fähigkeiten zur visuellen Modifikation. In diesem Artikel stellen wir MINT-CoT vor, das Mathematical INterleaved Tokens für die visuelle Argumentation in Chain-of-Thought einführt. MINT-CoT integriert relevante visuelle Tokens adaptiv in textbasierte Argumentationsschritte über einen Interleave Token, der dynamisch visuelle Regionen beliebiger Formen innerhalb mathematischer Abbildungen auswählt. Um diese Fähigkeit zu ermöglichen, haben wir den MINT-CoT-Datensatz erstellt, der 54.000 mathematische Probleme enthält, bei denen jeder Argumentationsschritt mit visuellen Regionen auf Token-Ebene abgestimmt ist, begleitet von einem rigorosen Daten-Generierungsprozess. Darüber hinaus präsentieren wir eine dreistufige MINT-CoT-Trainingsstrategie, die textbasierte CoT SFT, eingebettete CoT SFT und eingebettete CoT RL schrittweise kombiniert, was zu unserem MINT-CoT-7B-Modell führt. Umfangreiche Experimente belegen die Effektivität unserer Methode für effiziente visuell eingebettete Argumentation in mathematischen Domänen, wobei MINT-CoT-7B das Basismodell auf MathVista um +34,08 %, auf GeoQA um +28,78 % und auf MMStar um +23,2 % übertrifft. Unser Code und die Daten sind unter https://github.com/xinyan-cxy/MINT-CoT verfügbar.
English
Chain-of-Thought (CoT) has widely enhanced mathematical reasoning in Large
Language Models (LLMs), but it still remains challenging for extending it to
multimodal domains. Existing works either adopt a similar textual reasoning for
image input, or seek to interleave visual signals into mathematical CoT.
However, they face three key limitations for math problem-solving: reliance on
coarse-grained box-shaped image regions, limited perception of vision encoders
on math content, and dependence on external capabilities for visual
modification. In this paper, we propose MINT-CoT, introducing Mathematical
INterleaved Tokens for Chain-of-Thought visual reasoning. MINT-CoT adaptively
interleaves relevant visual tokens into textual reasoning steps via an
Interleave Token, which dynamically selects visual regions of any shapes within
math figures. To empower this capability, we construct the MINT-CoT dataset,
containing 54K mathematical problems aligning each reasoning step with visual
regions at the token level, accompanied by a rigorous data generation pipeline.
We further present a three-stage MINT-CoT training strategy, progressively
combining text-only CoT SFT, interleaved CoT SFT, and interleaved CoT RL, which
derives our MINT-CoT-7B model. Extensive experiments demonstrate the
effectiveness of our method for effective visual interleaved reasoning in
mathematical domains, where MINT-CoT-7B outperforms the baseline model by
+34.08% on MathVista, +28.78% on GeoQA, and +23.2% on MMStar, respectively. Our
code and data are available at https://github.com/xinyan-cxy/MINT-CoT