ChatPaper.aiChatPaper

URSA : Compréhension et Vérification du Raisonnement en Chaîne de Pensée en Mathématiques Multimodales

URSA: Understanding and Verifying Chain-of-thought Reasoning in Multimodal Mathematics

January 8, 2025
Auteurs: Ruilin Luo, Zhuofan Zheng, Yifan Wang, Yiyao Yu, Xinzhe Ni, Zicheng Lin, Jin Zeng, Yujiu Yang
cs.AI

Résumé

Le raisonnement en chaîne de pensée (CoT) a été largement appliqué dans le raisonnement mathématique des Grands Modèles de Langage (LLMs). Récemment, l'introduction de la supervision du processus dérivé sur les trajectoires CoT a suscité des discussions sur l'amélioration des capacités de mise à l'échelle lors du test, augmentant ainsi le potentiel de ces modèles. Cependant, dans le raisonnement mathématique multimodal, la rareté des données d'entraînement CoT de haute qualité a entravé les modèles existants dans l'atteinte d'un raisonnement CoT de haute précision et a limité la réalisation du potentiel de raisonnement lors du test. Dans ce travail, nous proposons une stratégie de synthèse à trois modules qui intègre la distillation CoT, la réécriture au format trajectoire et l'unification de format. Cela se traduit par un ensemble de données d'ajustement d'instruction de raisonnement CoT de haute qualité en mathématiques multimodales, MMathCoT-1M. Nous validons de manière exhaustive les performances de pointe (SOTA) du modèle entraîné URSA-7B sur plusieurs référentiels mathématiques multimodaux. Pour la mise à l'échelle au moment du test, nous introduisons une stratégie de synthèse de données qui génère automatiquement des ensembles de données d'annotation de processus, appelés DualMath-1.1M, se concentrant à la fois sur l'interprétation et la logique. En formant davantage URSA-7B sur DualMath-1.1M, nous passons des capacités de raisonnement CoT à des capacités de supervision robustes. Le modèle entraîné URSA-RM-7B agit comme un vérificateur, améliorant efficacement les performances de URSA-7B au moment du test. URSA-RM-7B démontre également d'excellentes capacités de vérification hors distribution (OOD), mettant en valeur sa généralisation. Les poids du modèle, les données d'entraînement et le code seront rendus open source.
English
Chain-of-thought (CoT) reasoning has been widely applied in the mathematical reasoning of Large Language Models (LLMs). Recently, the introduction of derivative process supervision on CoT trajectories has sparked discussions on enhancing scaling capabilities during test time, thereby boosting the potential of these models. However, in multimodal mathematical reasoning, the scarcity of high-quality CoT training data has hindered existing models from achieving high-precision CoT reasoning and has limited the realization of reasoning potential during test time. In this work, we propose a three-module synthesis strategy that integrates CoT distillation, trajectory-format rewriting, and format unification. It results in a high-quality CoT reasoning instruction fine-tuning dataset in multimodal mathematics, MMathCoT-1M. We comprehensively validate the state-of-the-art (SOTA) performance of the trained URSA-7B model on multiple multimodal mathematical benchmarks. For test-time scaling, we introduce a data synthesis strategy that automatically generates process annotation datasets, known as DualMath-1.1M, focusing on both interpretation and logic. By further training URSA-7B on DualMath-1.1M, we transition from CoT reasoning capabilities to robust supervision abilities. The trained URSA-RM-7B acts as a verifier, effectively enhancing the performance of URSA-7B at test time. URSA-RM-7B also demonstrates excellent out-of-distribution (OOD) verifying capabilities, showcasing its generalization. Model weights, training data and code will be open-sourced.

Summary

AI-Generated Summary

PDF543January 9, 2025