MetaMath: Aprimore Suas Próprias Questões Matemáticas para Modelos de Linguagem de Grande Escala
MetaMath: Bootstrap Your Own Mathematical Questions for Large Language Models
September 21, 2023
Autores: Longhui Yu, Weisen Jiang, Han Shi, Jincheng Yu, Zhengying Liu, Yu Zhang, James T. Kwok, Zhenguo Li, Adrian Weller, Weiyang Liu
cs.AI
Resumo
Os grandes modelos de linguagem (LLMs, na sigla em inglês) têm expandido os limites da compreensão de linguagem natural e demonstrado excelente capacidade de resolução de problemas. Apesar do grande sucesso, a maioria dos LLMs de código aberto existentes (\eg, LLaMA-2) ainda está longe de ser satisfatória para resolver problemas matemáticos devido aos procedimentos complexos de raciocínio. Para preencher essa lacuna, propomos o MetaMath, um modelo de linguagem ajustado que se especializa em raciocínio matemático. Especificamente, começamos por gerar questões matemáticas ao reescrever a pergunta a partir de múltiplas perspectivas sem conhecimento adicional, o que resulta em um novo conjunto de dados chamado {MetaMathQA}. Em seguida, ajustamos os modelos LLaMA-2 no MetaMathQA. Os resultados experimentais em dois benchmarks populares (\ie, GSM8K e MATH) para raciocínio matemático demonstram que o MetaMath supera uma série de LLMs de código aberto por uma margem significativa. Nosso modelo MetaMath-7B alcança 66,4% no GSM8K e 19,4% no MATH, excedendo os modelos state-of-the-art do mesmo tamanho em 11,5% e 8,7%. Particularmente, o {MetaMath-70B} alcança uma precisão de 82,3% no {GSM8K}, ligeiramente melhor que o {GPT-3.5-Turbo}. Disponibilizamos o conjunto de dados {MetaMathQA}, os modelos {MetaMath} com diferentes tamanhos e o código de treinamento para uso público.
English
Large language models (LLMs) have pushed the limits of natural language
understanding and exhibited excellent problem-solving ability. Despite the
great success, most existing open-source LLMs (\eg, LLaMA-2) are still far away
from satisfactory for solving mathematical problem due to the complex reasoning
procedures. To bridge this gap, we propose MetaMath, a fine-tuned
language model that specializes in mathematical reasoning. Specifically, we
start by bootstrapping mathematical questions by rewriting the question from
multiple perspectives without extra knowledge, which results in a new dataset
called {MetaMathQA}. Then we fine-tune the LLaMA-2 models on MetaMathQA.
Experimental results on two popular benchmarks (\ie, GSM8K and MATH) for
mathematical reasoning demonstrate that MetaMath outperforms a suite of
open-source LLMs by a significant margin. Our MetaMath-7B model achieves
66.4% on GSM8K and 19.4% on MATH, exceeding the state-of-the-art models
of the same size by 11.5% and 8.7%. Particularly, {MetaMath-70B} achieves
an accuracy of 82.3% on {GSM8K}, slightly better than {GPT-3.5-Turbo}. We
release the {MetaMathQA} dataset, the {MetaMath} models with different model
sizes and the training code for public use.