BTLM-3B-8K: Prestazioni di un modello da 7B parametri in un modello da 3B parametri
BTLM-3B-8K: 7B Parameter Performance in a 3B Parameter Model
September 20, 2023
Autori: Nolan Dey, Daria Soboleva, Faisal Al-Khateeb, Bowen Yang, Ribhu Pathria, Hemant Khachane, Shaheer Muhammad, Zhiming, Chen, Robert Myers, Jacob Robert Steeves, Natalia Vassilieva, Marvin Tom, Joel Hestness
cs.AI
Abstract
Presentiamo il modello linguistico Bittensor, denominato "BTLM-3B-8K", un nuovo modello linguistico open-source all'avanguardia da 3 miliardi di parametri. BTLM-3B-8K è stato addestrato su 627 miliardi di token provenienti dal dataset SlimPajama, utilizzando una combinazione di lunghezze contestuali di 2.048 e 8.192. BTLM-3B-8K supera tutti i modelli esistenti da 3B parametri con un margine del 2-5,5% in vari task downstream. Inoltre, BTLM-3B-8K è competitivo anche con alcuni modelli da 7B parametri. BTLM-3B-8K offre inoltre un'eccellente performance su contesti lunghi, superando MPT-7B-8K e XGen-7B-8K su task con lunghezze contestuali fino a 8.192. Abbiamo addestrato il modello su una versione pulita e deduplicata del dataset SlimPajama; ottimizzato in modo aggressivo gli iperparametri e la schedulazione di \textmu P; utilizzato gli embedding posizionali ALiBi; e adottato la non linearità SwiGLU.
Su Hugging Face, i modelli più popolari hanno 7B parametri, indicando che gli utenti preferiscono il rapporto qualità-dimensione dei modelli da 7B. Compattare un modello da 7B parametri in uno da 3B parametri, con un impatto minimo sulle prestazioni, rappresenta una pietra miliare significativa. BTLM-3B-8K richiede solo 3GB di memoria con precisione a 4 bit e utilizza 2,5 volte meno risorse computazionali per l'inferenza rispetto ai modelli da 7B, contribuendo a rendere accessibile un potente modello linguistico su dispositivi mobili e edge. BTLM-3B-8K è disponibile con licenza Apache 2.0 su Hugging Face:
https://huggingface.co/cerebras/btlm-3b-8k-base.
English
We introduce the Bittensor Language Model, called "BTLM-3B-8K", a new
state-of-the-art 3 billion parameter open-source language model. BTLM-3B-8K was
trained on 627B tokens from the SlimPajama dataset with a mixture of 2,048 and
8,192 context lengths. BTLM-3B-8K outperforms all existing 3B parameter models
by 2-5.5% across downstream tasks. BTLM-3B-8K is even competitive with some 7B
parameter models. Additionally, BTLM-3B-8K provides excellent long context
performance, outperforming MPT-7B-8K and XGen-7B-8K on tasks up to 8,192
context length. We trained the model on a cleaned and deduplicated SlimPajama
dataset; aggressively tuned the \textmu P hyperparameters and schedule; used
ALiBi position embeddings; and adopted the SwiGLU nonlinearity.
On Hugging Face, the most popular models have 7B parameters, indicating that
users prefer the quality-size ratio of 7B models. Compacting the 7B parameter
model to one with 3B parameters, with little performance impact, is an
important milestone. BTLM-3B-8K needs only 3GB of memory with 4-bit precision
and takes 2.5x less inference compute than 7B models, helping to open up access
to a powerful language model on mobile and edge devices. BTLM-3B-8K is
available under an Apache 2.0 license on Hugging Face:
https://huggingface.co/cerebras/btlm-3b-8k-base.