BTLM-3B-8K: 3Bパラメータモデルにおける7Bパラメータ相当の性能
BTLM-3B-8K: 7B Parameter Performance in a 3B Parameter Model
September 20, 2023
著者: Nolan Dey, Daria Soboleva, Faisal Al-Khateeb, Bowen Yang, Ribhu Pathria, Hemant Khachane, Shaheer Muhammad, Zhiming, Chen, Robert Myers, Jacob Robert Steeves, Natalia Vassilieva, Marvin Tom, Joel Hestness
cs.AI
要旨
私たちは、新しい最先端の3Bパラメータオープンソース言語モデル「BTLM-3B-8K」を紹介します。BTLM-3B-8Kは、SlimPajamaデータセットの627Bトークンを用いて、2,048と8,192のコンテキスト長を混合してトレーニングされました。BTLM-3B-8Kは、下流タスクにおいて既存のすべての3Bパラメータモデルを2-5.5%上回り、一部の7Bパラメータモデルとも競争力があります。さらに、BTLM-3B-8Kは優れた長文コンテキスト性能を提供し、8,192トークンのコンテキスト長までのタスクでMPT-7B-8KとXGen-7B-8Kを上回ります。私たちは、クリーンで重複排除されたSlimPajamaデータセットでモデルをトレーニングし、μPハイパーパラメータとスケジュールを積極的に調整し、ALiBi位置埋め込みを使用し、SwiGLU非線形性を採用しました。
Hugging Faceで最も人気のあるモデルは7Bパラメータであり、ユーザーが7Bモデルの品質とサイズの比率を好んでいることを示しています。7Bパラメータモデルを3Bパラメータにコンパクト化し、性能への影響を最小限に抑えることは重要なマイルストーンです。BTLM-3B-8Kは、4ビット精度でわずか3GBのメモリを必要とし、7Bモデルよりも2.5倍少ない推論計算量で、モバイルやエッジデバイスでの強力な言語モデルへのアクセスを可能にします。BTLM-3B-8Kは、Hugging FaceでApache 2.0ライセンスの下で利用可能です: https://huggingface.co/cerebras/btlm-3b-8k-base。
English
We introduce the Bittensor Language Model, called "BTLM-3B-8K", a new
state-of-the-art 3 billion parameter open-source language model. BTLM-3B-8K was
trained on 627B tokens from the SlimPajama dataset with a mixture of 2,048 and
8,192 context lengths. BTLM-3B-8K outperforms all existing 3B parameter models
by 2-5.5% across downstream tasks. BTLM-3B-8K is even competitive with some 7B
parameter models. Additionally, BTLM-3B-8K provides excellent long context
performance, outperforming MPT-7B-8K and XGen-7B-8K on tasks up to 8,192
context length. We trained the model on a cleaned and deduplicated SlimPajama
dataset; aggressively tuned the \textmu P hyperparameters and schedule; used
ALiBi position embeddings; and adopted the SwiGLU nonlinearity.
On Hugging Face, the most popular models have 7B parameters, indicating that
users prefer the quality-size ratio of 7B models. Compacting the 7B parameter
model to one with 3B parameters, with little performance impact, is an
important milestone. BTLM-3B-8K needs only 3GB of memory with 4-bit precision
and takes 2.5x less inference compute than 7B models, helping to open up access
to a powerful language model on mobile and edge devices. BTLM-3B-8K is
available under an Apache 2.0 license on Hugging Face:
https://huggingface.co/cerebras/btlm-3b-8k-base.