OpenMathInstruct-1: Ein Datensatz mit 1,8 Millionen mathematischen Anweisungen zur Feinabstimmung
OpenMathInstruct-1: A 1.8 Million Math Instruction Tuning Dataset
February 15, 2024
Autoren: Shubham Toshniwal, Ivan Moshkov, Sean Narenthiran, Daria Gitman, Fei Jia, Igor Gitman
cs.AI
Zusammenfassung
Aktuelle Arbeiten haben das immense Potenzial synthetisch generierter Datensätze für das Training großer Sprachmodelle (LLMs) gezeigt, insbesondere für den Erwerb gezielter Fähigkeiten. Derzeitige groß angelegte Datensätze für das Feinabstimmen von mathematischen Anweisungen, wie MetaMathQA (Yu et al., 2024) und MAmmoTH (Yue et al., 2024), werden mithilfe von Ausgaben proprietärer LLMs mit kommerziell restriktiven Lizenzen erstellt. Ein Hauptgrund, der die Verwendung von Open-Source-LLMs in diesen Daten-Generierungspipelines einschränkt, ist die große Kluft zwischen den mathematischen Fähigkeiten der besten proprietären LLMs, wie GPT-4, und den besten Open-Source-LLMs. Basierend auf den jüngsten Fortschritten bei Open-Source-LLMs, unserer vorgeschlagenen neuartigen Prompting-Technik und einigen Brute-Force-Skalierungen haben wir OpenMathInstruct-1 konstruiert, einen Datensatz für das Feinabstimmen mathematischer Anweisungen mit 1,8 Millionen Problem-Lösungs-Paaren. Der Datensatz wird durch die Synthese von Code-Interpreter-Lösungen für GSM8K und MATH, zwei beliebte Benchmarks für mathematisches Denken, mithilfe des kürzlich veröffentlichten und permissiv lizenzierten Mixtral-Modells erstellt. Unser bestes Modell, OpenMath-CodeLlama-70B, das auf einer Teilmenge von OpenMathInstruct-1 trainiert wurde, erreicht eine Punktzahl von 84,6 % auf GSM8K und 50,7 % auf MATH, was mit den besten gpt-distillierten Modellen konkurrieren kann. Wir veröffentlichen unseren Code, die Modelle und den OpenMathInstruct-1-Datensatz unter einer kommerziell freizügigen Lizenz.
English
Recent work has shown the immense potential of synthetically generated
datasets for training large language models (LLMs), especially for acquiring
targeted skills. Current large-scale math instruction tuning datasets such as
MetaMathQA (Yu et al., 2024) and MAmmoTH (Yue et al., 2024) are constructed
using outputs from closed-source LLMs with commercially restrictive licenses. A
key reason limiting the use of open-source LLMs in these data generation
pipelines has been the wide gap between the mathematical skills of the best
closed-source LLMs, such as GPT-4, and the best open-source LLMs. Building on
the recent progress in open-source LLMs, our proposed prompting novelty, and
some brute-force scaling, we construct OpenMathInstruct-1, a math instruction
tuning dataset with 1.8M problem-solution pairs. The dataset is constructed by
synthesizing code-interpreter solutions for GSM8K and MATH, two popular math
reasoning benchmarks, using the recently released and permissively licensed
Mixtral model. Our best model, OpenMath-CodeLlama-70B, trained on a subset of
OpenMathInstruct-1, achieves a score of 84.6% on GSM8K and 50.7% on MATH, which
is competitive with the best gpt-distilled models. We release our code, models,
and the OpenMathInstruct-1 dataset under a commercially permissive license.Summary
AI-Generated Summary