Livros Didáticos São Tudo o Que Você Precisa
Textbooks Are All You Need
June 20, 2023
Autores: Suriya Gunasekar, Yi Zhang, Jyoti Aneja, Caio César Teodoro Mendes, Allie Del Giorno, Sivakanth Gopi, Mojan Javaheripi, Piero Kauffmann, Gustavo de Rosa, Olli Saarikivi, Adil Salim, Shital Shah, Harkirat Singh Behl, Xin Wang, Sébastien Bubeck, Ronen Eldan, Adam Tauman Kalai, Yin Tat Lee, Yuanzhi Li
cs.AI
Resumo
Apresentamos o phi-1, um novo modelo de linguagem de grande escala para código, com um tamanho significativamente menor do que os modelos concorrentes: o phi-1 é um modelo baseado em Transformer com 1,3 bilhão de parâmetros, treinado por 4 dias em 8 GPUs A100, utilizando uma seleção de dados de "qualidade de livro didático" da web (6 bilhões de tokens) e livros didáticos e exercícios gerados sinteticamente com o GPT-3.5 (1 bilhão de tokens). Apesar dessa escala reduzida, o phi-1 alcança uma precisão pass@1 de 50,6% no HumanEval e 55,5% no MBPP. Ele também exibe propriedades emergentes surpreendentes em comparação com o phi-1-base, nosso modelo antes da etapa de ajuste fino em um conjunto de dados de exercícios de codificação, e o phi-1-small, um modelo menor com 350 milhões de parâmetros treinado com o mesmo pipeline do phi-1 que ainda alcança 45% no HumanEval.
English
We introduce phi-1, a new large language model for code, with significantly
smaller size than competing models: phi-1 is a Transformer-based model with
1.3B parameters, trained for 4 days on 8 A100s, using a selection of ``textbook
quality" data from the web (6B tokens) and synthetically generated textbooks
and exercises with GPT-3.5 (1B tokens). Despite this small scale, phi-1 attains
pass@1 accuracy 50.6% on HumanEval and 55.5% on MBPP. It also displays
surprising emergent properties compared to phi-1-base, our model before our
finetuning stage on a dataset of coding exercises, and phi-1-small, a smaller
model with 350M parameters trained with the same pipeline as phi-1 that still
achieves 45% on HumanEval.