ChatPaper.aiChatPaper

URSA: Verstehen und Überprüfen von Ketten-Gedanken-Argumentationen in multimodaler Mathematik

URSA: Understanding and Verifying Chain-of-thought Reasoning in Multimodal Mathematics

January 8, 2025
Autoren: Ruilin Luo, Zhuofan Zheng, Yifan Wang, Yiyao Yu, Xinzhe Ni, Zicheng Lin, Jin Zeng, Yujiu Yang
cs.AI

Zusammenfassung

Die Gedankenkette (CoT) wurde weitreichend in der mathematischen Argumentation von Large Language Models (LLMs) angewendet. Kürzlich hat die Einführung der Derivatprozessüberwachung auf CoT-Trajektorien Diskussionen über die Verbesserung der Skalierbarkeitsfähigkeiten zur Testzeit ausgelöst, wodurch das Potenzial dieser Modelle gesteigert wird. Allerdings hat in multimodaler mathematischer Argumentation die Knappheit hochwertiger CoT-Trainingsdaten bestehende Modelle daran gehindert, eine präzise CoT-Argumentation zu erreichen und die Realisierung des Argumentationspotenzials zur Testzeit eingeschränkt. In dieser Arbeit schlagen wir eine Dreimodul-Synthesestrategie vor, die CoT-Destillation, Trajektorienformat-Umschreibung und Formatvereinheitlichung integriert. Dies führt zu einem hochwertigen CoT-Argumentationsanweisungsfeinabstimmungsdatensatz in multimodaler Mathematik, MMathCoT-1M. Wir validieren umfassend die State-of-the-Art (SOTA)-Leistung des trainierten URSA-7B-Modells an mehreren multimodalen mathematischen Benchmarks. Für die Skalierung zur Testzeit führen wir eine Datensynthesestrategie ein, die automatisch Prozessannotationsdatensätze generiert, bekannt als DualMath-1.1M, die sich auf Interpretation und Logik konzentrieren. Durch weiteres Training von URSA-7B auf DualMath-1.1M wechseln wir von CoT-Argumentationsfähigkeiten zu robusten Überwachungsfähigkeiten. Der trainierte URSA-RM-7B fungiert als Verifizierer und verbessert effektiv die Leistung von URSA-7B zur Testzeit. URSA-RM-7B zeigt auch ausgezeichnete Out-of-Distribution (OOD)-Verifizierungsfähigkeiten und demonstriert damit seine Verallgemeinerungsfähigkeit. Modellgewichte, Trainingsdaten und Code werden Open Source zur Verfügung gestellt.
English
Chain-of-thought (CoT) reasoning has been widely applied in the mathematical reasoning of Large Language Models (LLMs). Recently, the introduction of derivative process supervision on CoT trajectories has sparked discussions on enhancing scaling capabilities during test time, thereby boosting the potential of these models. However, in multimodal mathematical reasoning, the scarcity of high-quality CoT training data has hindered existing models from achieving high-precision CoT reasoning and has limited the realization of reasoning potential during test time. In this work, we propose a three-module synthesis strategy that integrates CoT distillation, trajectory-format rewriting, and format unification. It results in a high-quality CoT reasoning instruction fine-tuning dataset in multimodal mathematics, MMathCoT-1M. We comprehensively validate the state-of-the-art (SOTA) performance of the trained URSA-7B model on multiple multimodal mathematical benchmarks. For test-time scaling, we introduce a data synthesis strategy that automatically generates process annotation datasets, known as DualMath-1.1M, focusing on both interpretation and logic. By further training URSA-7B on DualMath-1.1M, we transition from CoT reasoning capabilities to robust supervision abilities. The trained URSA-RM-7B acts as a verifier, effectively enhancing the performance of URSA-7B at test time. URSA-RM-7B also demonstrates excellent out-of-distribution (OOD) verifying capabilities, showcasing its generalization. Model weights, training data and code will be open-sourced.

Summary

AI-Generated Summary

PDF543January 9, 2025