ChatPaper.aiChatPaper

OpenMathInstruct-1 : Un ensemble de données de 1,8 million d'instructions pour le réglage en mathématiques

OpenMathInstruct-1: A 1.8 Million Math Instruction Tuning Dataset

February 15, 2024
Auteurs: Shubham Toshniwal, Ivan Moshkov, Sean Narenthiran, Daria Gitman, Fei Jia, Igor Gitman
cs.AI

Résumé

Les travaux récents ont démontré le potentiel immense des ensembles de données générés de manière synthétique pour l'entraînement de grands modèles de langage (LLMs), en particulier pour l'acquisition de compétences ciblées. Les ensembles de données actuels à grande échelle pour le réglage d'instructions mathématiques, tels que MetaMathQA (Yu et al., 2024) et MAmmoTH (Yue et al., 2024), sont construits à partir des sorties de LLMs propriétaires soumis à des licences commerciales restrictives. Une raison majeure limitant l'utilisation de LLMs open-source dans ces pipelines de génération de données est l'écart important entre les compétences mathématiques des meilleurs LLMs propriétaires, comme GPT-4, et celles des meilleurs LLMs open-source. En nous appuyant sur les progrès récents des LLMs open-source, notre nouveauté en matière de prompts, et un certain scaling par force brute, nous avons construit OpenMathInstruct-1, un ensemble de données pour le réglage d'instructions mathématiques contenant 1,8 million de paires problème-solution. Cet ensemble de données est construit en synthétisant des solutions basées sur un interpréteur de code pour GSM8K et MATH, deux benchmarks populaires en raisonnement mathématique, en utilisant le modèle Mixtral récemment publié et sous licence permissive. Notre meilleur modèle, OpenMath-CodeLlama-70B, entraîné sur un sous-ensemble d'OpenMathInstruct-1, atteint un score de 84,6 % sur GSM8K et de 50,7 % sur MATH, ce qui est compétitif avec les meilleurs modèles distillés de GPT. Nous publions notre code, nos modèles et l'ensemble de données OpenMathInstruct-1 sous une licence commerciale permissive.
English
Recent work has shown the immense potential of synthetically generated datasets for training large language models (LLMs), especially for acquiring targeted skills. Current large-scale math instruction tuning datasets such as MetaMathQA (Yu et al., 2024) and MAmmoTH (Yue et al., 2024) are constructed using outputs from closed-source LLMs with commercially restrictive licenses. A key reason limiting the use of open-source LLMs in these data generation pipelines has been the wide gap between the mathematical skills of the best closed-source LLMs, such as GPT-4, and the best open-source LLMs. Building on the recent progress in open-source LLMs, our proposed prompting novelty, and some brute-force scaling, we construct OpenMathInstruct-1, a math instruction tuning dataset with 1.8M problem-solution pairs. The dataset is constructed by synthesizing code-interpreter solutions for GSM8K and MATH, two popular math reasoning benchmarks, using the recently released and permissively licensed Mixtral model. Our best model, OpenMath-CodeLlama-70B, trained on a subset of OpenMathInstruct-1, achieves a score of 84.6% on GSM8K and 50.7% on MATH, which is competitive with the best gpt-distilled models. We release our code, models, and the OpenMathInstruct-1 dataset under a commercially permissive license.

Summary

AI-Generated Summary

PDF384December 15, 2024