MetaMath: 大規模言語モデルのための数学的質問の自己ブートストラップ
MetaMath: Bootstrap Your Own Mathematical Questions for Large Language Models
September 21, 2023
著者: Longhui Yu, Weisen Jiang, Han Shi, Jincheng Yu, Zhengying Liu, Yu Zhang, James T. Kwok, Zhenguo Li, Adrian Weller, Weiyang Liu
cs.AI
要旨
大規模言語モデル(LLM)は、自然言語理解の限界を押し上げ、優れた問題解決能力を示してきました。しかし、その大きな成功にもかかわらず、既存のオープンソースLLM(例:LLaMA-2)の多くは、複雑な推論手順を要する数学的問題の解決において、まだ満足のいくレベルには達していません。このギャップを埋めるため、我々は数学的推論に特化したファインチューニングされた言語モデル「MetaMath」を提案します。具体的には、まず追加の知識なしに、複数の視点から問題を書き換えることで数学的問題をブートストラップし、新たなデータセット「MetaMathQA」を作成します。その後、LLaMA-2モデルをMetaMathQAでファインチューニングします。数学的推論のための2つの人気ベンチマーク(GSM8KとMATH)での実験結果は、MetaMathが一連のオープンソースLLMを大幅に上回ることを示しています。我々のMetaMath-7Bモデルは、GSM8Kで66.4%、MATHで19.4%を達成し、同じサイズの最先端モデルをそれぞれ11.5%と8.7%上回りました。特に、MetaMath-70BはGSM8Kで82.3%の精度を達成し、GPT-3.5-Turboをわずかに上回りました。我々は、MetaMathQAデータセット、さまざまなモデルサイズのMetaMathモデル、およびトレーニングコードを公開し、広く利用できるようにしました。
English
Large language models (LLMs) have pushed the limits of natural language
understanding and exhibited excellent problem-solving ability. Despite the
great success, most existing open-source LLMs (\eg, LLaMA-2) are still far away
from satisfactory for solving mathematical problem due to the complex reasoning
procedures. To bridge this gap, we propose MetaMath, a fine-tuned
language model that specializes in mathematical reasoning. Specifically, we
start by bootstrapping mathematical questions by rewriting the question from
multiple perspectives without extra knowledge, which results in a new dataset
called {MetaMathQA}. Then we fine-tune the LLaMA-2 models on MetaMathQA.
Experimental results on two popular benchmarks (\ie, GSM8K and MATH) for
mathematical reasoning demonstrate that MetaMath outperforms a suite of
open-source LLMs by a significant margin. Our MetaMath-7B model achieves
66.4% on GSM8K and 19.4% on MATH, exceeding the state-of-the-art models
of the same size by 11.5% and 8.7%. Particularly, {MetaMath-70B} achieves
an accuracy of 82.3% on {GSM8K}, slightly better than {GPT-3.5-Turbo}. We
release the {MetaMathQA} dataset, the {MetaMath} models with different model
sizes and the training code for public use.