ChatPaper.aiChatPaper

MathScale : Mise à l'échelle du réglage par instructions pour le raisonnement mathématique

MathScale: Scaling Instruction Tuning for Mathematical Reasoning

March 5, 2024
Auteurs: Zhengyang Tang, Xingxing Zhang, Benyou Wan, Furu Wei
cs.AI

Résumé

Les grands modèles de langage (LLMs) ont démontré des capacités remarquables en résolution de problèmes. Cependant, leur compétence dans la résolution de problèmes mathématiques reste insuffisante. Nous proposons MathScale, une méthode simple et évolutive pour créer des données de raisonnement mathématique de haute qualité en utilisant des LLMs de pointe (par exemple, {\tt GPT-3.5}). Inspiré par le mécanisme cognitif de l'apprentissage mathématique humain, il extrait d'abord des sujets et des points de connaissance à partir de questions mathématiques de base, puis construit un graphe de concepts, qui est ensuite utilisé pour générer de nouvelles questions mathématiques. MathScale montre une scalabilité efficace le long de l'axe de taille du jeu de données mathématiques que nous générons. En conséquence, nous créons un jeu de données de raisonnement mathématique (MathScaleQA) contenant deux millions de paires question-réponse mathématiques. Pour évaluer de manière exhaustive les capacités de raisonnement mathématique des LLMs, nous construisons {\sc MwpBench}, un benchmark de problèmes mathématiques en langage naturel, qui est une collection de dix jeux de données (y compris GSM8K et MATH) couvrant des problèmes mathématiques de niveau primaire, secondaire, universitaire et de compétition. Nous appliquons MathScaleQA pour affiner des LLMs open-source (par exemple, LLaMA-2 et Mistral), ce qui entraîne une amélioration significative des capacités en raisonnement mathématique. Évalué sur {\sc MwpBench}, MathScale-7B atteint des performances de pointe sur tous les jeux de données, surpassant ses meilleurs pairs de taille équivalente de 42,9 % en précision moyenne micro et de 43,7 % en précision moyenne macro, respectivement.
English
Large language models (LLMs) have demonstrated remarkable capabilities in problem-solving. However, their proficiency in solving mathematical problems remains inadequate. We propose MathScale, a simple and scalable method to create high-quality mathematical reasoning data using frontier LLMs (e.g., {\tt GPT-3.5}). Inspired by the cognitive mechanism in human mathematical learning, it first extracts topics and knowledge points from seed math questions and then build a concept graph, which is subsequently used to generate new math questions. MathScale exhibits effective scalability along the size axis of the math dataset that we generate. As a result, we create a mathematical reasoning dataset (MathScaleQA) containing two million math question-answer pairs. To evaluate mathematical reasoning abilities of LLMs comprehensively, we construct {\sc MwpBench}, a benchmark of Math Word Problems, which is a collection of ten datasets (including GSM8K and MATH) covering K-12, college, and competition level math problems. We apply MathScaleQA to fine-tune open-source LLMs (e.g., LLaMA-2 and Mistral), resulting in significantly improved capabilities in mathematical reasoning. Evaluated on {\sc MwpBench}, MathScale-7B achieves state-of-the-art performance across all datasets, surpassing its best peers of equivalent size by 42.9\% in micro average accuracy and 43.7\% in macro average accuracy, respectively.
PDF172December 15, 2024