Leyes de Escala con Vocabulario: Modelos Más Grandes Merecen Vocabularios Más Grandes
Scaling Laws with Vocabulary: Larger Models Deserve Larger Vocabularies
July 18, 2024
Autores: Chaofan Tao, Qian Liu, Longxu Dou, Niklas Muennighoff, Zhongwei Wan, Ping Luo, Min Lin, Ngai Wong
cs.AI
Resumen
La investigación sobre el escalado de grandes modelos de lenguaje (LLMs) se ha centrado principalmente en los parámetros del modelo y el tamaño de los datos de entrenamiento, pasando por alto el papel del tamaño del vocabulario. Intuitivamente, vocabularios más grandes permiten una tokenización más eficiente al representar oraciones con menos tokens, pero también aumentan el riesgo de representaciones insuficientes para tokens raros. Investigamos cómo el tamaño del vocabulario afecta las leyes de escalado de LLM al entrenar modelos que van desde 33M hasta 3B de parámetros en hasta 500B de caracteres con varias configuraciones de vocabulario. Proponemos tres enfoques complementarios para predecir el tamaño de vocabulario óptimo en términos de cómputo: análisis de IsoFLOPs, estimación de derivadas y ajuste paramétrico de la función de pérdida. Nuestros enfoques convergen en el mismo resultado de que el tamaño de vocabulario óptimo depende del presupuesto de cómputo disponible y que los modelos más grandes merecen vocabularios más grandes. Sin embargo, la mayoría de los LLMs utilizan tamaños de vocabulario demasiado pequeños. Por ejemplo, predecimos que el tamaño de vocabulario óptimo de Llama2-70B debería haber sido de al menos 216K, 7 veces más grande que su vocabulario de 32K. Validamos nuestras predicciones empíricamente al entrenar modelos con 3B de parámetros en diferentes presupuestos de FLOPs. Adoptar nuestro tamaño de vocabulario óptimo predicho mejora consistentemente el rendimiento en tareas posteriores en comparación con los tamaños de vocabulario comúnmente utilizados. Al aumentar el tamaño del vocabulario de los convencionales 32K a 43K, mejoramos el rendimiento en ARC-Challenge de 29.1 a 32.0 con los mismos 2.3e21 FLOPs. Nuestro trabajo enfatiza la necesidad de considerar conjuntamente los parámetros del modelo y el tamaño del vocabulario para un escalado eficiente.
English
Research on scaling large language models (LLMs) has primarily focused on
model parameters and training data size, overlooking the role of vocabulary
size. % Intuitively, larger vocabularies enable more efficient tokenization by
representing sentences with fewer tokens, but they also increase the risk of
under-fitting representations for rare tokens. We investigate how vocabulary
size impacts LLM scaling laws by training models ranging from 33M to 3B
parameters on up to 500B characters with various vocabulary configurations. We
propose three complementary approaches for predicting the compute-optimal
vocabulary size: IsoFLOPs analysis, derivative estimation, and parametric fit
of the loss function. Our approaches converge on the same result that the
optimal vocabulary size depends on the available compute budget and that larger
models deserve larger vocabularies. However, most LLMs use too small vocabulary
sizes. For example, we predict that the optimal vocabulary size of Llama2-70B
should have been at least 216K, 7 times larger than its vocabulary of 32K. We
validate our predictions empirically by training models with 3B parameters
across different FLOPs budgets. Adopting our predicted optimal vocabulary size
consistently improves downstream performance over commonly used vocabulary
sizes. By increasing the vocabulary size from the conventional 32K to 43K, we
improve performance on ARC-Challenge from 29.1 to 32.0 with the same 2.3e21
FLOPs. Our work emphasizes the necessity of jointly considering model
parameters and vocabulary size for efficient scaling.Summary
AI-Generated Summary