OpenMathInstruct-1: Ein Datensatz mit 1,8 Millionen mathematischen Anweisungen zur Feinabstimmung

papers.abstract

Aktuelle Arbeiten haben das immense Potenzial synthetisch generierter Datensätze für das Training großer Sprachmodelle (LLMs) gezeigt, insbesondere für den Erwerb gezielter Fähigkeiten. Derzeitige groß angelegte Datensätze für das Feinabstimmen von mathematischen Anweisungen, wie MetaMathQA (Yu et al., 2024) und MAmmoTH (Yue et al., 2024), werden mithilfe von Ausgaben proprietärer LLMs mit kommerziell restriktiven Lizenzen erstellt. Ein Hauptgrund, der die Verwendung von Open-Source-LLMs in diesen Daten-Generierungspipelines einschränkt, ist die große Kluft zwischen den mathematischen Fähigkeiten der besten proprietären LLMs, wie GPT-4, und den besten Open-Source-LLMs. Basierend auf den jüngsten Fortschritten bei Open-Source-LLMs, unserer vorgeschlagenen neuartigen Prompting-Technik und einigen Brute-Force-Skalierungen haben wir OpenMathInstruct-1 konstruiert, einen Datensatz für das Feinabstimmen mathematischer Anweisungen mit 1,8 Millionen Problem-Lösungs-Paaren. Der Datensatz wird durch die Synthese von Code-Interpreter-Lösungen für GSM8K und MATH, zwei beliebte Benchmarks für mathematisches Denken, mithilfe des kürzlich veröffentlichten und permissiv lizenzierten Mixtral-Modells erstellt. Unser bestes Modell, OpenMath-CodeLlama-70B, das auf einer Teilmenge von OpenMathInstruct-1 trainiert wurde, erreicht eine Punktzahl von 84,6 % auf GSM8K und 50,7 % auf MATH, was mit den besten gpt-distillierten Modellen konkurrieren kann. Wir veröffentlichen unseren Code, die Modelle und den OpenMathInstruct-1-Datensatz unter einer kommerziell freizügigen Lizenz.

English

Recent work has shown the immense potential of synthetically generated datasets for training large language models (LLMs), especially for acquiring targeted skills. Current large-scale math instruction tuning datasets such as MetaMathQA (Yu et al., 2024) and MAmmoTH (Yue et al., 2024) are constructed using outputs from closed-source LLMs with commercially restrictive licenses. A key reason limiting the use of open-source LLMs in these data generation pipelines has been the wide gap between the mathematical skills of the best closed-source LLMs, such as GPT-4, and the best open-source LLMs. Building on the recent progress in open-source LLMs, our proposed prompting novelty, and some brute-force scaling, we construct OpenMathInstruct-1, a math instruction tuning dataset with 1.8M problem-solution pairs. The dataset is constructed by synthesizing code-interpreter solutions for GSM8K and MATH, two popular math reasoning benchmarks, using the recently released and permissively licensed Mixtral model. Our best model, OpenMath-CodeLlama-70B, trained on a subset of OpenMathInstruct-1, achieves a score of 84.6% on GSM8K and 50.7% on MATH, which is competitive with the best gpt-distilled models. We release our code, models, and the OpenMathInstruct-1 dataset under a commercially permissive license.

OpenMathInstruct-1: Ein Datensatz mit 1,8 Millionen mathematischen Anweisungen zur Feinabstimmung

OpenMathInstruct-1: A 1.8 Million Math Instruction Tuning Dataset

papers.abstract

Support