Законы масштабирования с словарным запасом: более крупные модели заслуживают более обширных словарей.Scaling Laws with Vocabulary: Larger Models Deserve Larger Vocabularies
Исследования по масштабированию крупных языковых моделей (LLM) в основном сосредоточены на параметрах модели и размере обучающих данных, игнорируя роль размера словаря. Интуитивно большие словари позволяют более эффективную токенизацию, представляя предложения с меньшим количеством токенов, но они также увеличивают риск недообучения представлений для редких токенов. Мы исследуем, как размер словаря влияет на законы масштабирования LLM, обучая модели с 33M до 3B параметров на объеме до 500B символов с различными конфигурациями словаря. Мы предлагаем три дополняющих подхода для прогнозирования оптимального размера словаря для вычислений: анализ IsoFLOPs, оценку производной и параметрическое приближение функции потерь. Наши подходы сходятся к одному результату: оптимальный размер словаря зависит от доступного бюджета вычислений и что более крупные модели заслуживают более крупные словари. Однако большинство LLM используют слишком маленькие размеры словарей. Например, мы предсказываем, что оптимальный размер словаря для Llama2-70B должен был быть не менее 216K, в 7 раз больше, чем его словарь из 32K. Мы подтверждаем наши прогнозы эмпирически, обучая модели с 3B параметрами при различных бюджетах FLOPs. Принятие нашего прогнозируемого оптимального размера словаря последовательно улучшает результаты на практике по сравнению с широко используемыми размерами словарей. Увеличивая размер словаря с обычных 32K до 43K, мы улучшаем результаты на ARC-Challenge с 29.1 до 32.0 при том же объеме 2.3e21 FLOPs. Наша работа подчеркивает необходимость совместного рассмотрения параметров модели и размера словаря для эффективного масштабирования.