MathScale: Skalierung der Anpassung von Anweisungen für mathematisches Denken

papers.abstract

Große Sprachmodelle (LLMs) haben bemerkenswerte Fähigkeiten im Problemlösen gezeigt. Ihre Kompetenz bei der Lösung mathematischer Probleme ist jedoch unzureichend. Wir schlagen MathScale vor, eine einfache und skalierbare Methode zur Erstellung hochwertiger mathematischer Schlussfolgerungsdaten unter Verwendung moderner LLMs (z.B. GPT-3.5). Inspiriert von den kognitiven Mechanismen des menschlichen mathematischen Lernens, extrahiert es zunächst Themen und Wissenspunkte aus Ausgangsfragen der Mathematik und erstellt dann einen Konzeptgraphen, der anschließend zur Generierung neuer Mathematikfragen verwendet wird. MathScale zeigt eine effektive Skalierbarkeit entlang der Größenachse des von uns generierten Mathematikdatensatzes. Dadurch erstellen wir einen mathematischen Schlussfolgerungsdatensatz (MathScaleQA) mit zwei Millionen Frage-Antwort-Paaren. Um die mathematischen Schlussfolgerungsfähigkeiten von LLMs umfassend zu bewerten, konstruieren wir MwpBench, einen Benchmark für Mathematik-Wortprobleme, der eine Sammlung von zehn Datensätzen (einschließlich GSM8K und MATH) umfasst und K-12, College- und Wettbewerbsniveau-Mathematikprobleme abdeckt. Wir wenden MathScaleQA an, um Open-Source LLMs (z.B. LLaMA-2 und Mistral) zu feinabstimmen, was zu signifikant verbesserten Fähigkeiten bei mathematischen Schlussfolgerungen führt. Evaluiert auf MwpBench, erreicht MathScale-7B eine Spitzenleistung in allen Datensätzen, wobei es seine besten Pendants gleicher Größe um 42,9 % bei der Mikrodurchschnittsgenauigkeit und 43,7 % bei der Makrodurchschnittsgenauigkeit übertrifft.

English

Large language models (LLMs) have demonstrated remarkable capabilities in problem-solving. However, their proficiency in solving mathematical problems remains inadequate. We propose MathScale, a simple and scalable method to create high-quality mathematical reasoning data using frontier LLMs (e.g., {\tt GPT-3.5}). Inspired by the cognitive mechanism in human mathematical learning, it first extracts topics and knowledge points from seed math questions and then build a concept graph, which is subsequently used to generate new math questions. MathScale exhibits effective scalability along the size axis of the math dataset that we generate. As a result, we create a mathematical reasoning dataset (MathScaleQA) containing two million math question-answer pairs. To evaluate mathematical reasoning abilities of LLMs comprehensively, we construct {\sc MwpBench}, a benchmark of Math Word Problems, which is a collection of ten datasets (including GSM8K and MATH) covering K-12, college, and competition level math problems. We apply MathScaleQA to fine-tune open-source LLMs (e.g., LLaMA-2 and Mistral), resulting in significantly improved capabilities in mathematical reasoning. Evaluated on {\sc MwpBench}, MathScale-7B achieves state-of-the-art performance across all datasets, surpassing its best peers of equivalent size by 42.9\% in micro average accuracy and 43.7\% in macro average accuracy, respectively.

MathScale: Skalierung der Anpassung von Anweisungen für mathematisches Denken

MathScale: Scaling Instruction Tuning for Mathematical Reasoning

papers.abstract

Support