MetaMath: Genera le Tue Domande Matematiche per Modelli Linguistici di Grande Dimensione
MetaMath: Bootstrap Your Own Mathematical Questions for Large Language Models
September 21, 2023
Autori: Longhui Yu, Weisen Jiang, Han Shi, Jincheng Yu, Zhengying Liu, Yu Zhang, James T. Kwok, Zhenguo Li, Adrian Weller, Weiyang Liu
cs.AI
Abstract
I grandi modelli linguistici (LLM) hanno spinto i limiti della comprensione del linguaggio naturale e hanno dimostrato un'eccellente capacità di risoluzione dei problemi. Nonostante il grande successo, la maggior parte degli LLM open-source esistenti (ad esempio, LLaMA-2) sono ancora lontani dall'essere soddisfacenti per risolvere problemi matematici a causa delle complesse procedure di ragionamento. Per colmare questa lacuna, proponiamo MetaMath, un modello linguistico fine-tuned specializzato nel ragionamento matematico. Nello specifico, iniziamo generando domande matematiche riscrivendo la domanda da molteplici prospettive senza conoscenze aggiuntive, ottenendo così un nuovo dataset chiamato {MetaMathQA}. Successivamente, eseguiamo il fine-tuning dei modelli LLaMA-2 su MetaMathQA. I risultati sperimentali su due benchmark popolari (ovvero, GSM8K e MATH) per il ragionamento matematico dimostrano che MetaMath supera significativamente una serie di LLM open-source. Il nostro modello MetaMath-7B raggiunge il 66,4% su GSM8K e il 19,4% su MATH, superando i modelli state-of-the-art della stessa dimensione rispettivamente dell'11,5% e dell'8,7%. In particolare, {MetaMath-70B} raggiunge un'accuratezza dell'82,3% su {GSM8K}, leggermente migliore rispetto a {GPT-3.5-Turbo}. Rilasciamo il dataset {MetaMathQA}, i modelli {MetaMath} con diverse dimensioni e il codice di training per uso pubblico.
English
Large language models (LLMs) have pushed the limits of natural language
understanding and exhibited excellent problem-solving ability. Despite the
great success, most existing open-source LLMs (\eg, LLaMA-2) are still far away
from satisfactory for solving mathematical problem due to the complex reasoning
procedures. To bridge this gap, we propose MetaMath, a fine-tuned
language model that specializes in mathematical reasoning. Specifically, we
start by bootstrapping mathematical questions by rewriting the question from
multiple perspectives without extra knowledge, which results in a new dataset
called {MetaMathQA}. Then we fine-tune the LLaMA-2 models on MetaMathQA.
Experimental results on two popular benchmarks (\ie, GSM8K and MATH) for
mathematical reasoning demonstrate that MetaMath outperforms a suite of
open-source LLMs by a significant margin. Our MetaMath-7B model achieves
66.4% on GSM8K and 19.4% on MATH, exceeding the state-of-the-art models
of the same size by 11.5% and 8.7%. Particularly, {MetaMath-70B} achieves
an accuracy of 82.3% on {GSM8K}, slightly better than {GPT-3.5-Turbo}. We
release the {MetaMathQA} dataset, the {MetaMath} models with different model
sizes and the training code for public use.