Livros Didáticos São Tudo o Que Você Precisa

Resumo

Apresentamos o phi-1, um novo modelo de linguagem de grande escala para código, com um tamanho significativamente menor do que os modelos concorrentes: o phi-1 é um modelo baseado em Transformer com 1,3 bilhão de parâmetros, treinado por 4 dias em 8 GPUs A100, utilizando uma seleção de dados de "qualidade de livro didático" da web (6 bilhões de tokens) e livros didáticos e exercícios gerados sinteticamente com o GPT-3.5 (1 bilhão de tokens). Apesar dessa escala reduzida, o phi-1 alcança uma precisão pass@1 de 50,6% no HumanEval e 55,5% no MBPP. Ele também exibe propriedades emergentes surpreendentes em comparação com o phi-1-base, nosso modelo antes da etapa de ajuste fino em um conjunto de dados de exercícios de codificação, e o phi-1-small, um modelo menor com 350 milhões de parâmetros treinado com o mesmo pipeline do phi-1 que ainda alcança 45% no HumanEval.

English

We introduce phi-1, a new large language model for code, with significantly smaller size than competing models: phi-1 is a Transformer-based model with 1.3B parameters, trained for 4 days on 8 A100s, using a selection of ``textbook quality" data from the web (6B tokens) and synthetically generated textbooks and exercises with GPT-3.5 (1B tokens). Despite this small scale, phi-1 attains pass@1 accuracy 50.6% on HumanEval and 55.5% on MBPP. It also displays surprising emergent properties compared to phi-1-base, our model before our finetuning stage on a dataset of coding exercises, and phi-1-small, a smaller model with 350M parameters trained with the same pipeline as phi-1 that still achieves 45% on HumanEval.

Livros Didáticos São Tudo o Que Você Precisa

Textbooks Are All You Need

Resumo

Support