MathScale: Scalabilità del Fine-Tuning delle Istruzioni per il Ragionamento Matematico
MathScale: Scaling Instruction Tuning for Mathematical Reasoning
March 5, 2024
Autori: Zhengyang Tang, Xingxing Zhang, Benyou Wan, Furu Wei
cs.AI
Abstract
I modelli linguistici di grandi dimensioni (LLM) hanno dimostrato capacità notevoli nella risoluzione di problemi. Tuttavia, la loro competenza nel risolvere problemi matematici rimane insufficiente. Proponiamo MathScale, un metodo semplice e scalabile per creare dati di ragionamento matematico di alta qualità utilizzando LLM all'avanguardia (ad esempio, {\tt GPT-3.5}). Ispirato dal meccanismo cognitivo nell'apprendimento matematico umano, esso estrae prima argomenti e punti di conoscenza da domande matematiche di base e poi costruisce un grafo concettuale, che viene successivamente utilizzato per generare nuove domande matematiche. MathScale mostra un'efficace scalabilità lungo l'asse dimensionale del dataset matematico che generiamo. Di conseguenza, creiamo un dataset di ragionamento matematico (MathScaleQA) contenente due milioni di coppie domanda-risposta matematiche. Per valutare in modo completo le capacità di ragionamento matematico degli LLM, costruiamo {\sc MwpBench}, un benchmark di problemi matematici verbali, che è una raccolta di dieci dataset (inclusi GSM8K e MATH) che coprono problemi matematici di livello K-12, universitario e di competizione. Applichiamo MathScaleQA per ottimizzare LLM open-source (ad esempio, LLaMA-2 e Mistral), ottenendo un miglioramento significativo nelle capacità di ragionamento matematico. Valutato su {\sc MwpBench}, MathScale-7B raggiunge prestazioni all'avanguardia su tutti i dataset, superando i suoi migliori pari di dimensioni equivalenti del 42,9\% in accuratezza media micro e del 43,7\% in accuratezza media macro, rispettivamente.
English
Large language models (LLMs) have demonstrated remarkable capabilities in
problem-solving. However, their proficiency in solving mathematical problems
remains inadequate. We propose MathScale, a simple and scalable method to
create high-quality mathematical reasoning data using frontier LLMs (e.g., {\tt
GPT-3.5}). Inspired by the cognitive mechanism in human mathematical learning,
it first extracts topics and knowledge points from seed math questions and then
build a concept graph, which is subsequently used to generate new math
questions. MathScale exhibits effective scalability along the size axis of the
math dataset that we generate. As a result, we create a mathematical reasoning
dataset (MathScaleQA) containing two million math question-answer pairs. To
evaluate mathematical reasoning abilities of LLMs comprehensively, we construct
{\sc MwpBench}, a benchmark of Math Word Problems, which is a collection of ten
datasets (including GSM8K and MATH) covering K-12, college, and competition
level math problems. We apply MathScaleQA to fine-tune open-source LLMs (e.g.,
LLaMA-2 and Mistral), resulting in significantly improved capabilities in
mathematical reasoning. Evaluated on {\sc MwpBench}, MathScale-7B achieves
state-of-the-art performance across all datasets, surpassing its best peers of
equivalent size by 42.9\% in micro average accuracy and 43.7\% in macro average
accuracy, respectively.