少数のトークンで小型ベース言語モデルを事前学習するPre-training Small Base LMs with Fewer Tokens
既存の大規模なベース言語モデル(LM)から出発して、小さなベースLMを開発するためのシンプルなアプローチの有効性を研究します。まず、大規模LMからいくつかのTransformerブロックを継承し、その後、この小さなモデルを大規模モデルの生の事前学習データのごく一部(0.1%)で訓練します。このシンプルなレシピを「Inheritune」と呼び、3Bパラメータの大規模LMの最初の数層を使用して、1Bトークンで1.5Bパラメータの小さなベースLMを構築するために最初に実証します。これを単一のA6000 GPUで半日未満で行います。9つの多様な評価データセットおよびMMLUベンチマークにおいて、結果として得られたモデルは、1B-2Bサイズの公開されているベースモデルと比較して有利であり、そのうちいくつかは50〜1000倍以上のトークンを使用して訓練されています。 Inherituneを、大規模LMとその完全な事前学習データセットを活用して小さなLMを訓練する、やや異なる設定で調査します。ここでは、GPT2-medium(355M)およびGPT-2-large(770M)のいくつかの層を活用して訓練された小さなLMが、OpenWebTextデータセットの9Bトークンで同じ訓練ステップ数でゼロから訓練された場合、それらの大きな対応モデルのval損失に効果的に匹敵することを示します。広範な実験を通じてレシピを分析し、多様な設定での有効性を実証します。私たちのコードはhttps://github.com/sanyalsunny111/LLM-Inherituneで利用可能です。