MetaMath: Genereer je eigen wiskundige vragen voor grote taalmodellen

Samenvatting

Grote taalmodellen (LLMs) hebben de grenzen van natuurlijke taalbegrip verlegd en uitstekende probleemoplossende vaardigheden getoond. Ondanks het grote succes zijn de meeste bestaande open-source LLMs (\bijv. LLaMA-2) nog steeds verre van bevredigend voor het oplossen van wiskundige problemen vanwege de complexe redeneerprocedures. Om deze kloof te overbruggen, stellen we MetaMath voor, een fijn afgestemd taalmodel dat gespecialiseerd is in wiskundig redeneren. Specifiek beginnen we met het bootstrappen van wiskundige vragen door de vraag vanuit meerdere perspectieven te herschrijven zonder extra kennis, wat resulteert in een nieuwe dataset genaamd {MetaMathQA}. Vervolgens stellen we de LLaMA-2-modellen fijn af op MetaMathQA. Experimentele resultaten op twee populaire benchmarks (\d.w.z. GSM8K en MATH) voor wiskundig redeneren laten zien dat MetaMath een reeks open-source LLMs met een aanzienlijke marge overtreft. Ons MetaMath-7B-model behaalt 66,4% op GSM8K en 19,4% op MATH, wat de state-of-the-art modellen van dezelfde grootte met 11,5% en 8,7% overtreft. In het bijzonder behaalt {MetaMath-70B} een nauwkeurigheid van 82,3% op {GSM8K}, wat iets beter is dan {GPT-3.5-Turbo}. We geven de {MetaMathQA}-dataset, de {MetaMath}-modellen met verschillende modelgroottes en de trainingscode vrij voor publiek gebruik.

English

Large language models (LLMs) have pushed the limits of natural language understanding and exhibited excellent problem-solving ability. Despite the great success, most existing open-source LLMs (\eg, LLaMA-2) are still far away from satisfactory for solving mathematical problem due to the complex reasoning procedures. To bridge this gap, we propose MetaMath, a fine-tuned language model that specializes in mathematical reasoning. Specifically, we start by bootstrapping mathematical questions by rewriting the question from multiple perspectives without extra knowledge, which results in a new dataset called {MetaMathQA}. Then we fine-tune the LLaMA-2 models on MetaMathQA. Experimental results on two popular benchmarks (\ie, GSM8K and MATH) for mathematical reasoning demonstrate that MetaMath outperforms a suite of open-source LLMs by a significant margin. Our MetaMath-7B model achieves 66.4% on GSM8K and 19.4% on MATH, exceeding the state-of-the-art models of the same size by 11.5% and 8.7%. Particularly, {MetaMath-70B} achieves an accuracy of 82.3% on {GSM8K}, slightly better than {GPT-3.5-Turbo}. We release the {MetaMathQA} dataset, the {MetaMath} models with different model sizes and the training code for public use.

MetaMath: Genereer je eigen wiskundige vragen voor grote taalmodellen

MetaMath: Bootstrap Your Own Mathematical Questions for Large Language Models

Samenvatting

Support