MathScale: Skalierung der Anpassung von Anweisungen für mathematisches Denken
MathScale: Scaling Instruction Tuning for Mathematical Reasoning
March 5, 2024
papers.authors: Zhengyang Tang, Xingxing Zhang, Benyou Wan, Furu Wei
cs.AI
papers.abstract
Große Sprachmodelle (LLMs) haben bemerkenswerte Fähigkeiten im Problemlösen gezeigt. Ihre Kompetenz bei der Lösung mathematischer Probleme ist jedoch unzureichend. Wir schlagen MathScale vor, eine einfache und skalierbare Methode zur Erstellung hochwertiger mathematischer Schlussfolgerungsdaten unter Verwendung moderner LLMs (z.B. GPT-3.5). Inspiriert von den kognitiven Mechanismen des menschlichen mathematischen Lernens, extrahiert es zunächst Themen und Wissenspunkte aus Ausgangsfragen der Mathematik und erstellt dann einen Konzeptgraphen, der anschließend zur Generierung neuer Mathematikfragen verwendet wird. MathScale zeigt eine effektive Skalierbarkeit entlang der Größenachse des von uns generierten Mathematikdatensatzes. Dadurch erstellen wir einen mathematischen Schlussfolgerungsdatensatz (MathScaleQA) mit zwei Millionen Frage-Antwort-Paaren. Um die mathematischen Schlussfolgerungsfähigkeiten von LLMs umfassend zu bewerten, konstruieren wir MwpBench, einen Benchmark für Mathematik-Wortprobleme, der eine Sammlung von zehn Datensätzen (einschließlich GSM8K und MATH) umfasst und K-12, College- und Wettbewerbsniveau-Mathematikprobleme abdeckt. Wir wenden MathScaleQA an, um Open-Source LLMs (z.B. LLaMA-2 und Mistral) zu feinabstimmen, was zu signifikant verbesserten Fähigkeiten bei mathematischen Schlussfolgerungen führt. Evaluiert auf MwpBench, erreicht MathScale-7B eine Spitzenleistung in allen Datensätzen, wobei es seine besten Pendants gleicher Größe um 42,9 % bei der Mikrodurchschnittsgenauigkeit und 43,7 % bei der Makrodurchschnittsgenauigkeit übertrifft.
English
Large language models (LLMs) have demonstrated remarkable capabilities in
problem-solving. However, their proficiency in solving mathematical problems
remains inadequate. We propose MathScale, a simple and scalable method to
create high-quality mathematical reasoning data using frontier LLMs (e.g., {\tt
GPT-3.5}). Inspired by the cognitive mechanism in human mathematical learning,
it first extracts topics and knowledge points from seed math questions and then
build a concept graph, which is subsequently used to generate new math
questions. MathScale exhibits effective scalability along the size axis of the
math dataset that we generate. As a result, we create a mathematical reasoning
dataset (MathScaleQA) containing two million math question-answer pairs. To
evaluate mathematical reasoning abilities of LLMs comprehensively, we construct
{\sc MwpBench}, a benchmark of Math Word Problems, which is a collection of ten
datasets (including GSM8K and MATH) covering K-12, college, and competition
level math problems. We apply MathScaleQA to fine-tune open-source LLMs (e.g.,
LLaMA-2 and Mistral), resulting in significantly improved capabilities in
mathematical reasoning. Evaluated on {\sc MwpBench}, MathScale-7B achieves
state-of-the-art performance across all datasets, surpassing its best peers of
equivalent size by 42.9\% in micro average accuracy and 43.7\% in macro average
accuracy, respectively.