BTLM-3B-8K : Performances d'un modèle à 7 milliards de paramètres dans un modèle à 3 milliards de paramètres
BTLM-3B-8K: 7B Parameter Performance in a 3B Parameter Model
September 20, 2023
Auteurs: Nolan Dey, Daria Soboleva, Faisal Al-Khateeb, Bowen Yang, Ribhu Pathria, Hemant Khachane, Shaheer Muhammad, Zhiming, Chen, Robert Myers, Jacob Robert Steeves, Natalia Vassilieva, Marvin Tom, Joel Hestness
cs.AI
Résumé
Nous présentons le modèle de langage Bittensor, appelé "BTLM-3B-8K", un nouveau modèle de langage open-source de pointe comptant 3 milliards de paramètres. BTLM-3B-8K a été entraîné sur 627 milliards de tokens provenant du jeu de données SlimPajama, avec un mélange de longueurs de contexte de 2 048 et 8 192. BTLM-3B-8K surpasse tous les modèles existants de 3 milliards de paramètres de 2 à 5,5 % sur diverses tâches en aval. BTLM-3B-8K est même compétitif avec certains modèles de 7 milliards de paramètres. De plus, BTLM-3B-8K offre d'excellentes performances sur des contextes longs, surpassant MPT-7B-8K et XGen-7B-8K sur des tâches allant jusqu'à une longueur de contexte de 8 192. Nous avons entraîné le modèle sur une version nettoyée et dédupliquée du jeu de données SlimPajama ; avons optimisé de manière agressive les hyperparamètres et le calendrier de \textmu P ; avons utilisé les embeddings de position ALiBi ; et avons adopté la non-linéarité SwiGLU.
Sur Hugging Face, les modèles les plus populaires ont 7 milliards de paramètres, ce qui indique que les utilisateurs privilégient le rapport qualité-taille des modèles de 7 milliards de paramètres. Compacter un modèle de 7 milliards de paramètres à un modèle de 3 milliards de paramètres, avec un impact minimal sur les performances, constitue une étape importante. BTLM-3B-8K nécessite seulement 3 Go de mémoire avec une précision de 4 bits et utilise 2,5 fois moins de calcul pour l'inférence que les modèles de 7 milliards de paramètres, ce qui contribue à rendre accessible un modèle de langage puissant sur les appareils mobiles et de périphérie. BTLM-3B-8K est disponible sous licence Apache 2.0 sur Hugging Face : https://huggingface.co/cerebras/btlm-3b-8k-base.
English
We introduce the Bittensor Language Model, called "BTLM-3B-8K", a new
state-of-the-art 3 billion parameter open-source language model. BTLM-3B-8K was
trained on 627B tokens from the SlimPajama dataset with a mixture of 2,048 and
8,192 context lengths. BTLM-3B-8K outperforms all existing 3B parameter models
by 2-5.5% across downstream tasks. BTLM-3B-8K is even competitive with some 7B
parameter models. Additionally, BTLM-3B-8K provides excellent long context
performance, outperforming MPT-7B-8K and XGen-7B-8K on tasks up to 8,192
context length. We trained the model on a cleaned and deduplicated SlimPajama
dataset; aggressively tuned the \textmu P hyperparameters and schedule; used
ALiBi position embeddings; and adopted the SwiGLU nonlinearity.
On Hugging Face, the most popular models have 7B parameters, indicating that
users prefer the quality-size ratio of 7B models. Compacting the 7B parameter
model to one with 3B parameters, with little performance impact, is an
important milestone. BTLM-3B-8K needs only 3GB of memory with 4-bit precision
and takes 2.5x less inference compute than 7B models, helping to open up access
to a powerful language model on mobile and edge devices. BTLM-3B-8K is
available under an Apache 2.0 license on Hugging Face:
https://huggingface.co/cerebras/btlm-3b-8k-base.