MetaMath: Genereer je eigen wiskundige vragen voor grote taalmodellen
MetaMath: Bootstrap Your Own Mathematical Questions for Large Language Models
September 21, 2023
Auteurs: Longhui Yu, Weisen Jiang, Han Shi, Jincheng Yu, Zhengying Liu, Yu Zhang, James T. Kwok, Zhenguo Li, Adrian Weller, Weiyang Liu
cs.AI
Samenvatting
Grote taalmodellen (LLMs) hebben de grenzen van natuurlijke taalbegrip verlegd en uitstekende probleemoplossende vaardigheden getoond. Ondanks het grote succes zijn de meeste bestaande open-source LLMs (\bijv. LLaMA-2) nog steeds verre van bevredigend voor het oplossen van wiskundige problemen vanwege de complexe redeneerprocedures. Om deze kloof te overbruggen, stellen we MetaMath voor, een fijn afgestemd taalmodel dat gespecialiseerd is in wiskundig redeneren. Specifiek beginnen we met het bootstrappen van wiskundige vragen door de vraag vanuit meerdere perspectieven te herschrijven zonder extra kennis, wat resulteert in een nieuwe dataset genaamd {MetaMathQA}. Vervolgens stellen we de LLaMA-2-modellen fijn af op MetaMathQA. Experimentele resultaten op twee populaire benchmarks (\d.w.z. GSM8K en MATH) voor wiskundig redeneren laten zien dat MetaMath een reeks open-source LLMs met een aanzienlijke marge overtreft. Ons MetaMath-7B-model behaalt 66,4% op GSM8K en 19,4% op MATH, wat de state-of-the-art modellen van dezelfde grootte met 11,5% en 8,7% overtreft. In het bijzonder behaalt {MetaMath-70B} een nauwkeurigheid van 82,3% op {GSM8K}, wat iets beter is dan {GPT-3.5-Turbo}. We geven de {MetaMathQA}-dataset, de {MetaMath}-modellen met verschillende modelgroottes en de trainingscode vrij voor publiek gebruik.
English
Large language models (LLMs) have pushed the limits of natural language
understanding and exhibited excellent problem-solving ability. Despite the
great success, most existing open-source LLMs (\eg, LLaMA-2) are still far away
from satisfactory for solving mathematical problem due to the complex reasoning
procedures. To bridge this gap, we propose MetaMath, a fine-tuned
language model that specializes in mathematical reasoning. Specifically, we
start by bootstrapping mathematical questions by rewriting the question from
multiple perspectives without extra knowledge, which results in a new dataset
called {MetaMathQA}. Then we fine-tune the LLaMA-2 models on MetaMathQA.
Experimental results on two popular benchmarks (\ie, GSM8K and MATH) for
mathematical reasoning demonstrate that MetaMath outperforms a suite of
open-source LLMs by a significant margin. Our MetaMath-7B model achieves
66.4% on GSM8K and 19.4% on MATH, exceeding the state-of-the-art models
of the same size by 11.5% and 8.7%. Particularly, {MetaMath-70B} achieves
an accuracy of 82.3% on {GSM8K}, slightly better than {GPT-3.5-Turbo}. We
release the {MetaMathQA} dataset, the {MetaMath} models with different model
sizes and the training code for public use.