語彙規模のスケーリング則:大規模モデルには大規模な語彙が必要Scaling Laws with Vocabulary: Larger Models Deserve Larger Vocabularies
大規模言語モデル(LLM)のスケーリングに関する研究は、主にモデルパラメータとトレーニングデータのサイズに焦点を当てており、語彙サイズの役割を見落としてきた。直感的には、より大きな語彙は、文をより少ないトークンで表現することで効率的なトークン化を可能にするが、一方で希少なトークンの表現が不十分になるリスクも増大する。本研究では、33Mから3Bのパラメータを持つモデルを最大500B文字のデータでトレーニングし、さまざまな語彙構成がLLMのスケーリング則に与える影響を調査する。計算最適な語彙サイズを予測するために、IsoFLOPs分析、微分推定、および損失関数のパラメトリックフィットという3つの補完的なアプローチを提案する。これらのアプローチは、最適な語彙サイズが利用可能な計算予算に依存し、より大きなモデルにはより大きな語彙が適しているという同じ結論に収束する。しかし、ほとんどのLLMは語彙サイズが小さすぎる。例えば、Llama2-70Bの最適な語彙サイズは少なくとも216Kであるべきだと予測しており、これは実際に使用された32Kの語彙の7倍に相当する。3Bパラメータのモデルを異なるFLOPs予算でトレーニングすることで、これらの予測を実証的に検証する。予測された最適な語彙サイズを採用することで、一般的に使用される語彙サイズよりも下流タスクの性能が一貫して向上する。語彙サイズを従来の32Kから43Kに増やすことで、同じ2.3e21 FLOPsでARC-Challengeの性能を29.1から32.0に改善した。本研究は、効率的なスケーリングのためにモデルパラメータと語彙サイズを同時に考慮する必要性を強調している。