MetaMath: Aprimore Suas Próprias Questões Matemáticas para Modelos de Linguagem de Grande Escala

Resumo

Os grandes modelos de linguagem (LLMs, na sigla em inglês) têm expandido os limites da compreensão de linguagem natural e demonstrado excelente capacidade de resolução de problemas. Apesar do grande sucesso, a maioria dos LLMs de código aberto existentes (\eg, LLaMA-2) ainda está longe de ser satisfatória para resolver problemas matemáticos devido aos procedimentos complexos de raciocínio. Para preencher essa lacuna, propomos o MetaMath, um modelo de linguagem ajustado que se especializa em raciocínio matemático. Especificamente, começamos por gerar questões matemáticas ao reescrever a pergunta a partir de múltiplas perspectivas sem conhecimento adicional, o que resulta em um novo conjunto de dados chamado {MetaMathQA}. Em seguida, ajustamos os modelos LLaMA-2 no MetaMathQA. Os resultados experimentais em dois benchmarks populares (\ie, GSM8K e MATH) para raciocínio matemático demonstram que o MetaMath supera uma série de LLMs de código aberto por uma margem significativa. Nosso modelo MetaMath-7B alcança 66,4% no GSM8K e 19,4% no MATH, excedendo os modelos state-of-the-art do mesmo tamanho em 11,5% e 8,7%. Particularmente, o {MetaMath-70B} alcança uma precisão de 82,3% no {GSM8K}, ligeiramente melhor que o {GPT-3.5-Turbo}. Disponibilizamos o conjunto de dados {MetaMathQA}, os modelos {MetaMath} com diferentes tamanhos e o código de treinamento para uso público.

English

Large language models (LLMs) have pushed the limits of natural language understanding and exhibited excellent problem-solving ability. Despite the great success, most existing open-source LLMs (\eg, LLaMA-2) are still far away from satisfactory for solving mathematical problem due to the complex reasoning procedures. To bridge this gap, we propose MetaMath, a fine-tuned language model that specializes in mathematical reasoning. Specifically, we start by bootstrapping mathematical questions by rewriting the question from multiple perspectives without extra knowledge, which results in a new dataset called {MetaMathQA}. Then we fine-tune the LLaMA-2 models on MetaMathQA. Experimental results on two popular benchmarks (\ie, GSM8K and MATH) for mathematical reasoning demonstrate that MetaMath outperforms a suite of open-source LLMs by a significant margin. Our MetaMath-7B model achieves 66.4% on GSM8K and 19.4% on MATH, exceeding the state-of-the-art models of the same size by 11.5% and 8.7%. Particularly, {MetaMath-70B} achieves an accuracy of 82.3% on {GSM8K}, slightly better than {GPT-3.5-Turbo}. We release the {MetaMathQA} dataset, the {MetaMath} models with different model sizes and the training code for public use.

MetaMath: Aprimore Suas Próprias Questões Matemáticas para Modelos de Linguagem de Grande Escala

MetaMath: Bootstrap Your Own Mathematical Questions for Large Language Models

Resumo

Support