BTLM-3B-8K: Leistung eines 7B-Parameter-Modells in einem 3B-Parameter-Modell

papers.abstract

Wir stellen das Bittensor Language Model vor, genannt „BTLM-3B-8K“, ein neues Open-Source-Sprachmodell mit 3 Milliarden Parametern, das den aktuellen Stand der Technik repräsentiert. BTLM-3B-8K wurde auf 627 Milliarden Tokens aus dem SlimPajama-Datensatz mit einer Mischung aus Kontextlängen von 2.048 und 8.192 trainiert. BTLM-3B-8K übertrifft alle bestehenden 3-Milliarden-Parameter-Modelle um 2–5,5 % bei nachgelagerten Aufgaben und ist sogar mit einigen 7-Milliarden-Parameter-Modellen wettbewerbsfähig. Darüber hinaus bietet BTLM-3B-8K eine hervorragende Leistung bei langen Kontexten und übertrifft MPT-7B-8K und XGen-7B-8K bei Aufgaben mit einer Kontextlänge von bis zu 8.192. Wir haben das Modell auf einem bereinigten und deduplizierten SlimPajama-Datensatz trainiert, die \textmu P-Hyperparameter und den Zeitplan aggressiv optimiert, ALiBi-Positionsembedding verwendet und die SwiGLU-Nichtlinearität übernommen. Auf Hugging Face haben die beliebtesten Modelle 7 Milliarden Parameter, was darauf hindeutet, dass Benutzer das Qualitäts-Größen-Verhältnis von 7-Milliarden-Parameter-Modellen bevorzugen. Die Komprimierung eines 7-Milliarden-Parameter-Modells auf eines mit 3 Milliarden Parametern bei minimalem Leistungsverlust ist ein wichtiger Meilenstein. BTLM-3B-8K benötigt nur 3 GB Speicher bei 4-Bit-Genauigkeit und benötigt 2,5-mal weniger Rechenleistung für die Inferenz als 7-Milliarden-Parameter-Modelle, was den Zugang zu einem leistungsstarken Sprachmodell auf mobilen und Edge-Geräten erleichtert. BTLM-3B-8K ist unter einer Apache-2.0-Lizenz auf Hugging Face verfügbar: https://huggingface.co/cerebras/btlm-3b-8k-base.

English

We introduce the Bittensor Language Model, called "BTLM-3B-8K", a new state-of-the-art 3 billion parameter open-source language model. BTLM-3B-8K was trained on 627B tokens from the SlimPajama dataset with a mixture of 2,048 and 8,192 context lengths. BTLM-3B-8K outperforms all existing 3B parameter models by 2-5.5% across downstream tasks. BTLM-3B-8K is even competitive with some 7B parameter models. Additionally, BTLM-3B-8K provides excellent long context performance, outperforming MPT-7B-8K and XGen-7B-8K on tasks up to 8,192 context length. We trained the model on a cleaned and deduplicated SlimPajama dataset; aggressively tuned the \textmu P hyperparameters and schedule; used ALiBi position embeddings; and adopted the SwiGLU nonlinearity. On Hugging Face, the most popular models have 7B parameters, indicating that users prefer the quality-size ratio of 7B models. Compacting the 7B parameter model to one with 3B parameters, with little performance impact, is an important milestone. BTLM-3B-8K needs only 3GB of memory with 4-bit precision and takes 2.5x less inference compute than 7B models, helping to open up access to a powerful language model on mobile and edge devices. BTLM-3B-8K is available under an Apache 2.0 license on Hugging Face: https://huggingface.co/cerebras/btlm-3b-8k-base.

BTLM-3B-8K: Leistung eines 7B-Parameter-Modells in einem 3B-Parameter-Modell

BTLM-3B-8K: 7B Parameter Performance in a 3B Parameter Model

papers.abstract

Support