MetaMath: Eigenständige Generierung mathematischer Fragen für große Sprachmodelle
MetaMath: Bootstrap Your Own Mathematical Questions for Large Language Models
September 21, 2023
Autoren: Longhui Yu, Weisen Jiang, Han Shi, Jincheng Yu, Zhengying Liu, Yu Zhang, James T. Kwok, Zhenguo Li, Adrian Weller, Weiyang Liu
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) haben die Grenzen des natürlichen Sprachverständnisses erweitert und hervorragende Problemlösungsfähigkeiten gezeigt. Trotz dieses großen Erfolgs sind die meisten bestehenden Open-Source-LLMs (z.B. LLaMA-2) noch weit davon entfernt, zufriedenstellende Ergebnisse bei der Lösung mathematischer Probleme zu liefern, was auf die komplexen Denkprozesse zurückzuführen ist. Um diese Lücke zu schließen, schlagen wir MetaMath vor, ein feinabgestimmtes Sprachmodell, das sich auf mathematisches Denken spezialisiert. Konkret beginnen wir damit, mathematische Fragen durch die Neufassung der Fragestellung aus mehreren Perspektiven ohne zusätzliches Wissen zu bootstrappen, was zu einem neuen Datensatz namens {MetaMathQA} führt. Anschließend passen wir die LLaMA-2-Modelle auf MetaMathQA fein ab. Experimentelle Ergebnisse auf zwei beliebten Benchmarks (d.h. GSM8K und MATH) für mathematisches Denken zeigen, dass MetaMath eine Reihe von Open-Source-LLMs deutlich übertrifft. Unser MetaMath-7B-Modell erreicht 66,4 % auf GSM8K und 19,4 % auf MATH und übertrifft damit die state-of-the-art Modelle gleicher Größe um 11,5 % bzw. 8,7 %. Insbesondere erreicht {MetaMath-70B} eine Genauigkeit von 82,3 % auf {GSM8K}, was leicht besser ist als {GPT-3.5-Turbo}. Wir veröffentlichen den {MetaMathQA}-Datensatz, die {MetaMath}-Modelle in verschiedenen Größen und den Trainingscode zur öffentlichen Nutzung.
English
Large language models (LLMs) have pushed the limits of natural language
understanding and exhibited excellent problem-solving ability. Despite the
great success, most existing open-source LLMs (\eg, LLaMA-2) are still far away
from satisfactory for solving mathematical problem due to the complex reasoning
procedures. To bridge this gap, we propose MetaMath, a fine-tuned
language model that specializes in mathematical reasoning. Specifically, we
start by bootstrapping mathematical questions by rewriting the question from
multiple perspectives without extra knowledge, which results in a new dataset
called {MetaMathQA}. Then we fine-tune the LLaMA-2 models on MetaMathQA.
Experimental results on two popular benchmarks (\ie, GSM8K and MATH) for
mathematical reasoning demonstrate that MetaMath outperforms a suite of
open-source LLMs by a significant margin. Our MetaMath-7B model achieves
66.4% on GSM8K and 19.4% on MATH, exceeding the state-of-the-art models
of the same size by 11.5% and 8.7%. Particularly, {MetaMath-70B} achieves
an accuracy of 82.3% on {GSM8K}, slightly better than {GPT-3.5-Turbo}. We
release the {MetaMathQA} dataset, the {MetaMath} models with different model
sizes and the training code for public use.