MetaMath : Générer vos propres questions mathématiques pour les grands modèles de langage

Résumé

Les grands modèles de langage (LLMs) ont repoussé les limites de la compréhension du langage naturel et ont démontré d'excellentes capacités de résolution de problèmes. Malgré ce succès remarquable, la plupart des LLMs open-source existants (\eg, LLaMA-2) restent loin d'être satisfaisants pour résoudre des problèmes mathématiques en raison des procédures de raisonnement complexes. Pour combler cette lacune, nous proposons MetaMath, un modèle de langage affiné spécialisé dans le raisonnement mathématique. Plus précisément, nous commençons par amorcer des questions mathématiques en reformulant la question sous plusieurs angles sans connaissances supplémentaires, ce qui aboutit à un nouveau jeu de données appelé {MetaMathQA}. Ensuite, nous affinons les modèles LLaMA-2 sur MetaMathQA. Les résultats expérimentaux sur deux benchmarks populaires (\ie, GSM8K et MATH) pour le raisonnement mathématique montrent que MetaMath surpasse de manière significative une série de LLMs open-source. Notre modèle MetaMath-7B atteint 66,4% sur GSM8K et 19,4% sur MATH, dépassant les modèles de pointe de même taille de 11,5% et 8,7%. En particulier, {MetaMath-70B} atteint une précision de 82,3% sur {GSM8K}, légèrement supérieure à {GPT-3.5-Turbo}. Nous rendons publics le jeu de données {MetaMathQA}, les modèles {MetaMath} de différentes tailles et le code d'entraînement pour un usage public.

English

Large language models (LLMs) have pushed the limits of natural language understanding and exhibited excellent problem-solving ability. Despite the great success, most existing open-source LLMs (\eg, LLaMA-2) are still far away from satisfactory for solving mathematical problem due to the complex reasoning procedures. To bridge this gap, we propose MetaMath, a fine-tuned language model that specializes in mathematical reasoning. Specifically, we start by bootstrapping mathematical questions by rewriting the question from multiple perspectives without extra knowledge, which results in a new dataset called {MetaMathQA}. Then we fine-tune the LLaMA-2 models on MetaMathQA. Experimental results on two popular benchmarks (\ie, GSM8K and MATH) for mathematical reasoning demonstrate that MetaMath outperforms a suite of open-source LLMs by a significant margin. Our MetaMath-7B model achieves 66.4% on GSM8K and 19.4% on MATH, exceeding the state-of-the-art models of the same size by 11.5% and 8.7%. Particularly, {MetaMath-70B} achieves an accuracy of 82.3% on {GSM8K}, slightly better than {GPT-3.5-Turbo}. We release the {MetaMathQA} dataset, the {MetaMath} models with different model sizes and the training code for public use.

MetaMath : Générer vos propres questions mathématiques pour les grands modèles de langage

MetaMath: Bootstrap Your Own Mathematical Questions for Large Language Models

Résumé

Support