OpenMathInstruct-1: Um Conjunto de Dados de Ajuste Fino com 1,8 Milhão de Instruções Matemáticas
OpenMathInstruct-1: A 1.8 Million Math Instruction Tuning Dataset
February 15, 2024
Autores: Shubham Toshniwal, Ivan Moshkov, Sean Narenthiran, Daria Gitman, Fei Jia, Igor Gitman
cs.AI
Resumo
Trabalhos recentes demonstraram o imenso potencial de conjuntos de dados sinteticamente gerados para o treinamento de grandes modelos de linguagem (LLMs), especialmente para a aquisição de habilidades específicas. Atualmente, grandes conjuntos de dados de ajuste fino para instruções matemáticas, como o MetaMathQA (Yu et al., 2024) e o MAmmoTH (Yue et al., 2024), são construídos utilizando saídas de LLMs de código fechado com licenças comercialmente restritivas. Uma razão fundamental que limita o uso de LLMs de código aberto nesses pipelines de geração de dados tem sido a grande diferença entre as habilidades matemáticas dos melhores LLMs de código fechado, como o GPT-4, e os melhores LLMs de código aberto. Com base nos recentes avanços em LLMs de código aberto, nossa proposta de inovação em prompt e algum escalonamento de força bruta, construímos o OpenMathInstruct-1, um conjunto de dados de ajuste fino para instruções matemáticas com 1,8 milhões de pares problema-solução. O conjunto de dados foi construído sintetizando soluções de interpretação de código para o GSM8K e o MATH, dois benchmarks populares de raciocínio matemático, utilizando o modelo Mixtral, recentemente lançado e com licença permissiva. Nosso melhor modelo, o OpenMath-CodeLlama-70B, treinado em um subconjunto do OpenMathInstruct-1, alcança uma pontuação de 84,6% no GSM8K e 50,7% no MATH, o que é competitivo com os melhores modelos destilados do GPT. Disponibilizamos nosso código, modelos e o conjunto de dados OpenMathInstruct-1 sob uma licença comercialmente permissiva.
English
Recent work has shown the immense potential of synthetically generated
datasets for training large language models (LLMs), especially for acquiring
targeted skills. Current large-scale math instruction tuning datasets such as
MetaMathQA (Yu et al., 2024) and MAmmoTH (Yue et al., 2024) are constructed
using outputs from closed-source LLMs with commercially restrictive licenses. A
key reason limiting the use of open-source LLMs in these data generation
pipelines has been the wide gap between the mathematical skills of the best
closed-source LLMs, such as GPT-4, and the best open-source LLMs. Building on
the recent progress in open-source LLMs, our proposed prompting novelty, and
some brute-force scaling, we construct OpenMathInstruct-1, a math instruction
tuning dataset with 1.8M problem-solution pairs. The dataset is constructed by
synthesizing code-interpreter solutions for GSM8K and MATH, two popular math
reasoning benchmarks, using the recently released and permissively licensed
Mixtral model. Our best model, OpenMath-CodeLlama-70B, trained on a subset of
OpenMathInstruct-1, achieves a score of 84.6% on GSM8K and 50.7% on MATH, which
is competitive with the best gpt-distilled models. We release our code, models,
and the OpenMathInstruct-1 dataset under a commercially permissive license.