Законы масштабирования с словарным запасом: более крупные модели заслуживают более обширных словарей.
Scaling Laws with Vocabulary: Larger Models Deserve Larger Vocabularies
July 18, 2024
Авторы: Chaofan Tao, Qian Liu, Longxu Dou, Niklas Muennighoff, Zhongwei Wan, Ping Luo, Min Lin, Ngai Wong
cs.AI
Аннотация
Исследования по масштабированию крупных языковых моделей (LLM) в основном сосредоточены на параметрах модели и размере обучающих данных, игнорируя роль размера словаря. Интуитивно большие словари позволяют более эффективную токенизацию, представляя предложения с меньшим количеством токенов, но они также увеличивают риск недообучения представлений для редких токенов. Мы исследуем, как размер словаря влияет на законы масштабирования LLM, обучая модели с 33M до 3B параметров на объеме до 500B символов с различными конфигурациями словаря. Мы предлагаем три дополняющих подхода для прогнозирования оптимального размера словаря для вычислений: анализ IsoFLOPs, оценку производной и параметрическое приближение функции потерь. Наши подходы сходятся к одному результату: оптимальный размер словаря зависит от доступного бюджета вычислений и что более крупные модели заслуживают более крупные словари. Однако большинство LLM используют слишком маленькие размеры словарей. Например, мы предсказываем, что оптимальный размер словаря для Llama2-70B должен был быть не менее 216K, в 7 раз больше, чем его словарь из 32K. Мы подтверждаем наши прогнозы эмпирически, обучая модели с 3B параметрами при различных бюджетах FLOPs. Принятие нашего прогнозируемого оптимального размера словаря последовательно улучшает результаты на практике по сравнению с широко используемыми размерами словарей. Увеличивая размер словаря с обычных 32K до 43K, мы улучшаем результаты на ARC-Challenge с 29.1 до 32.0 при том же объеме 2.3e21 FLOPs. Наша работа подчеркивает необходимость совместного рассмотрения параметров модели и размера словаря для эффективного масштабирования.
English
Research on scaling large language models (LLMs) has primarily focused on
model parameters and training data size, overlooking the role of vocabulary
size. % Intuitively, larger vocabularies enable more efficient tokenization by
representing sentences with fewer tokens, but they also increase the risk of
under-fitting representations for rare tokens. We investigate how vocabulary
size impacts LLM scaling laws by training models ranging from 33M to 3B
parameters on up to 500B characters with various vocabulary configurations. We
propose three complementary approaches for predicting the compute-optimal
vocabulary size: IsoFLOPs analysis, derivative estimation, and parametric fit
of the loss function. Our approaches converge on the same result that the
optimal vocabulary size depends on the available compute budget and that larger
models deserve larger vocabularies. However, most LLMs use too small vocabulary
sizes. For example, we predict that the optimal vocabulary size of Llama2-70B
should have been at least 216K, 7 times larger than its vocabulary of 32K. We
validate our predictions empirically by training models with 3B parameters
across different FLOPs budgets. Adopting our predicted optimal vocabulary size
consistently improves downstream performance over commonly used vocabulary
sizes. By increasing the vocabulary size from the conventional 32K to 43K, we
improve performance on ARC-Challenge from 29.1 to 32.0 with the same 2.3e21
FLOPs. Our work emphasizes the necessity of jointly considering model
parameters and vocabulary size for efficient scaling.Summary
AI-Generated Summary