MetaMath : Générer vos propres questions mathématiques pour les grands modèles de langage
MetaMath: Bootstrap Your Own Mathematical Questions for Large Language Models
September 21, 2023
Auteurs: Longhui Yu, Weisen Jiang, Han Shi, Jincheng Yu, Zhengying Liu, Yu Zhang, James T. Kwok, Zhenguo Li, Adrian Weller, Weiyang Liu
cs.AI
Résumé
Les grands modèles de langage (LLMs) ont repoussé les limites de la compréhension du langage naturel et ont démontré d'excellentes capacités de résolution de problèmes. Malgré ce succès remarquable, la plupart des LLMs open-source existants (\eg, LLaMA-2) restent loin d'être satisfaisants pour résoudre des problèmes mathématiques en raison des procédures de raisonnement complexes. Pour combler cette lacune, nous proposons MetaMath, un modèle de langage affiné spécialisé dans le raisonnement mathématique. Plus précisément, nous commençons par amorcer des questions mathématiques en reformulant la question sous plusieurs angles sans connaissances supplémentaires, ce qui aboutit à un nouveau jeu de données appelé {MetaMathQA}. Ensuite, nous affinons les modèles LLaMA-2 sur MetaMathQA. Les résultats expérimentaux sur deux benchmarks populaires (\ie, GSM8K et MATH) pour le raisonnement mathématique montrent que MetaMath surpasse de manière significative une série de LLMs open-source. Notre modèle MetaMath-7B atteint 66,4% sur GSM8K et 19,4% sur MATH, dépassant les modèles de pointe de même taille de 11,5% et 8,7%. En particulier, {MetaMath-70B} atteint une précision de 82,3% sur {GSM8K}, légèrement supérieure à {GPT-3.5-Turbo}. Nous rendons publics le jeu de données {MetaMathQA}, les modèles {MetaMath} de différentes tailles et le code d'entraînement pour un usage public.
English
Large language models (LLMs) have pushed the limits of natural language
understanding and exhibited excellent problem-solving ability. Despite the
great success, most existing open-source LLMs (\eg, LLaMA-2) are still far away
from satisfactory for solving mathematical problem due to the complex reasoning
procedures. To bridge this gap, we propose MetaMath, a fine-tuned
language model that specializes in mathematical reasoning. Specifically, we
start by bootstrapping mathematical questions by rewriting the question from
multiple perspectives without extra knowledge, which results in a new dataset
called {MetaMathQA}. Then we fine-tune the LLaMA-2 models on MetaMathQA.
Experimental results on two popular benchmarks (\ie, GSM8K and MATH) for
mathematical reasoning demonstrate that MetaMath outperforms a suite of
open-source LLMs by a significant margin. Our MetaMath-7B model achieves
66.4% on GSM8K and 19.4% on MATH, exceeding the state-of-the-art models
of the same size by 11.5% and 8.7%. Particularly, {MetaMath-70B} achieves
an accuracy of 82.3% on {GSM8K}, slightly better than {GPT-3.5-Turbo}. We
release the {MetaMathQA} dataset, the {MetaMath} models with different model
sizes and the training code for public use.