Los libros de texto son todo lo que necesitas.

Resumen

Presentamos phi-1, un nuevo modelo de lenguaje de gran escala para código, con un tamaño significativamente menor que los modelos competidores: phi-1 es un modelo basado en Transformer con 1.300 millones de parámetros, entrenado durante 4 días en 8 GPUs A100, utilizando una selección de datos de "calidad de libro de texto" de la web (6.000 millones de tokens) y libros de texto y ejercicios generados sintéticamente con GPT-3.5 (1.000 millones de tokens). A pesar de esta escala reducida, phi-1 alcanza una precisión pass@1 del 50,6% en HumanEval y del 55,5% en MBPP. También muestra propiedades emergentes sorprendentes en comparación con phi-1-base, nuestro modelo antes de la etapa de ajuste fino en un conjunto de datos de ejercicios de codificación, y phi-1-small, un modelo más pequeño con 350 millones de parámetros entrenado con la misma pipeline que phi-1 que aún logra un 45% en HumanEval.

English

We introduce phi-1, a new large language model for code, with significantly smaller size than competing models: phi-1 is a Transformer-based model with 1.3B parameters, trained for 4 days on 8 A100s, using a selection of ``textbook quality" data from the web (6B tokens) and synthetically generated textbooks and exercises with GPT-3.5 (1B tokens). Despite this small scale, phi-1 attains pass@1 accuracy 50.6% on HumanEval and 55.5% on MBPP. It also displays surprising emergent properties compared to phi-1-base, our model before our finetuning stage on a dataset of coding exercises, and phi-1-small, a smaller model with 350M parameters trained with the same pipeline as phi-1 that still achieves 45% on HumanEval.

Los libros de texto son todo lo que necesitas.

Textbooks Are All You Need

Resumen

Support