OpenMathInstruct-1: 180万件の数学指示チューニングデータセット
OpenMathInstruct-1: A 1.8 Million Math Instruction Tuning Dataset
February 15, 2024
著者: Shubham Toshniwal, Ivan Moshkov, Sean Narenthiran, Daria Gitman, Fei Jia, Igor Gitman
cs.AI
要旨
最近の研究では、特に特定のスキルを習得するために、合成生成されたデータセットが大規模言語モデル(LLM)のトレーニングにおいて非常に大きな可能性を示しています。現在の大規模な数学指導チューニングデータセット、例えばMetaMathQA(Yu et al., 2024)やMAmmoTH(Yue et al., 2024)は、商用利用に制限のあるクローズドソースのLLMの出力を使用して構築されています。これらのデータ生成パイプラインでオープンソースのLLMの使用が制限されている主な理由は、GPT-4のような最良のクローズドソースLLMと最良のオープンソースLLMとの間の数学的スキルの大きな差にあります。オープンソースLLMの最近の進歩、私たちが提案するプロンプティングの新規性、そしてある程度のブルートフォーススケーリングを基に、1.8Mの問題解決ペアを含む数学指導チューニングデータセットであるOpenMathInstruct-1を構築しました。このデータセットは、最近リリースされ、許諾ライセンスを持つMixtralモデルを使用して、GSM8KとMATHという2つの人気のある数学推論ベンチマークのコードインタプリタソリューションを合成することで構築されています。OpenMathInstruct-1のサブセットでトレーニングされた私たちの最良のモデル、OpenMath-CodeLlama-70Bは、GSM8Kで84.6%、MATHで50.7%のスコアを達成し、最良のGPT蒸留モデルと競争力があります。私たちは、コード、モデル、およびOpenMathInstruct-1データセットを商用利用可能なライセンスの下で公開します。
English
Recent work has shown the immense potential of synthetically generated
datasets for training large language models (LLMs), especially for acquiring
targeted skills. Current large-scale math instruction tuning datasets such as
MetaMathQA (Yu et al., 2024) and MAmmoTH (Yue et al., 2024) are constructed
using outputs from closed-source LLMs with commercially restrictive licenses. A
key reason limiting the use of open-source LLMs in these data generation
pipelines has been the wide gap between the mathematical skills of the best
closed-source LLMs, such as GPT-4, and the best open-source LLMs. Building on
the recent progress in open-source LLMs, our proposed prompting novelty, and
some brute-force scaling, we construct OpenMathInstruct-1, a math instruction
tuning dataset with 1.8M problem-solution pairs. The dataset is constructed by
synthesizing code-interpreter solutions for GSM8K and MATH, two popular math
reasoning benchmarks, using the recently released and permissively licensed
Mixtral model. Our best model, OpenMath-CodeLlama-70B, trained on a subset of
OpenMathInstruct-1, achieves a score of 84.6% on GSM8K and 50.7% on MATH, which
is competitive with the best gpt-distilled models. We release our code, models,
and the OpenMathInstruct-1 dataset under a commercially permissive license.Summary
AI-Generated Summary