MathScale: Schaalvergroting van instructieafstemming voor wiskundig redeneren
MathScale: Scaling Instruction Tuning for Mathematical Reasoning
March 5, 2024
Auteurs: Zhengyang Tang, Xingxing Zhang, Benyou Wan, Furu Wei
cs.AI
Samenvatting
Grote taalmodellen (LLMs) hebben opmerkelijke vaardigheden getoond in het oplossen van problemen. Hun bekwaamheid in het oplossen van wiskundige problemen blijft echter ontoereikend. Wij stellen MathScale voor, een eenvoudige en schaalbare methode om hoogwaardige wiskundige redeneergegevens te creëren met behulp van geavanceerde LLMs (bijv. {\tt GPT-3.5}). Geïnspireerd door het cognitieve mechanisme in menselijk wiskundig leren, extraheert het eerst onderwerpen en kennispunten uit startvragen voor wiskunde en bouwt vervolgens een conceptgrafiek, die wordt gebruikt om nieuwe wiskundevragen te genereren. MathScale toont effectieve schaalbaarheid langs de grootte-as van de wiskundige dataset die we genereren. Als resultaat creëren we een wiskundig redeneerdataset (MathScaleQA) die twee miljoen wiskundige vraag-antwoordparen bevat. Om de wiskundige redeneervaardigheden van LLMs uitgebreid te evalueren, construeren we {\sc MwpBench}, een benchmark van Wiskundige Woordproblemen, een verzameling van tien datasets (inclusief GSM8K en MATH) die wiskundige problemen op K-12, universitair en wedstrijdniveau omvatten. We passen MathScaleQA toe om open-source LLMs (bijv. LLaMA-2 en Mistral) te fine-tunen, wat resulteert in aanzienlijk verbeterde vaardigheden in wiskundig redeneren. Geëvalueerd op {\sc MwpBench}, behaalt MathScale-7B state-of-the-art prestaties op alle datasets, waarbij het zijn beste equivalent grote peers overtreft met 42,9\% in micro gemiddelde nauwkeurigheid en 43,7\% in macro gemiddelde nauwkeurigheid, respectievelijk.
English
Large language models (LLMs) have demonstrated remarkable capabilities in
problem-solving. However, their proficiency in solving mathematical problems
remains inadequate. We propose MathScale, a simple and scalable method to
create high-quality mathematical reasoning data using frontier LLMs (e.g., {\tt
GPT-3.5}). Inspired by the cognitive mechanism in human mathematical learning,
it first extracts topics and knowledge points from seed math questions and then
build a concept graph, which is subsequently used to generate new math
questions. MathScale exhibits effective scalability along the size axis of the
math dataset that we generate. As a result, we create a mathematical reasoning
dataset (MathScaleQA) containing two million math question-answer pairs. To
evaluate mathematical reasoning abilities of LLMs comprehensively, we construct
{\sc MwpBench}, a benchmark of Math Word Problems, which is a collection of ten
datasets (including GSM8K and MATH) covering K-12, college, and competition
level math problems. We apply MathScaleQA to fine-tune open-source LLMs (e.g.,
LLaMA-2 and Mistral), resulting in significantly improved capabilities in
mathematical reasoning. Evaluated on {\sc MwpBench}, MathScale-7B achieves
state-of-the-art performance across all datasets, surpassing its best peers of
equivalent size by 42.9\% in micro average accuracy and 43.7\% in macro average
accuracy, respectively.