Informe Técnico de Phi-3: Un Modelo de Lenguaje Altamente Capable en tu Teléfono de Manera LocalPhi-3 Technical Report: A Highly Capable Language Model Locally on Your
Phone
Presentamos phi-3-mini, un modelo de lenguaje de 3.8 mil millones de parámetros entrenado con 3.3 billones de tokens, cuyo rendimiento general, medido tanto por benchmarks académicos como por pruebas internas, rivaliza con el de modelos como Mixtral 8x7B y GPT-3.5 (por ejemplo, phi-3-mini alcanza un 69% en MMLU y 8.38 en MT-bench), a pesar de ser lo suficientemente pequeño como para ser implementado en un teléfono. La innovación reside completamente en nuestro conjunto de datos para el entrenamiento, una versión ampliada del utilizado para phi-2, compuesto por datos web altamente filtrados y datos sintéticos. El modelo también está más alineado para garantizar robustez, seguridad y formato de chat. Además, proporcionamos algunos resultados iniciales de escalado de parámetros con modelos de 7B y 14B entrenados con 4.8T tokens, llamados phi-3-small y phi-3-medium, ambos significativamente más capaces que phi-3-mini (por ejemplo, 75% y 78% en MMLU, y 8.7 y 8.9 en MT-bench, respectivamente).