ChatPaper.aiChatPaper

BTLM-3B-8K: Leistung eines 7B-Parameter-Modells in einem 3B-Parameter-Modell

BTLM-3B-8K: 7B Parameter Performance in a 3B Parameter Model

September 20, 2023
Autoren: Nolan Dey, Daria Soboleva, Faisal Al-Khateeb, Bowen Yang, Ribhu Pathria, Hemant Khachane, Shaheer Muhammad, Zhiming, Chen, Robert Myers, Jacob Robert Steeves, Natalia Vassilieva, Marvin Tom, Joel Hestness
cs.AI

Zusammenfassung

Wir stellen das Bittensor Language Model vor, genannt „BTLM-3B-8K“, ein neues Open-Source-Sprachmodell mit 3 Milliarden Parametern, das den aktuellen Stand der Technik repräsentiert. BTLM-3B-8K wurde auf 627 Milliarden Tokens aus dem SlimPajama-Datensatz mit einer Mischung aus Kontextlängen von 2.048 und 8.192 trainiert. BTLM-3B-8K übertrifft alle bestehenden 3-Milliarden-Parameter-Modelle um 2–5,5 % bei nachgelagerten Aufgaben und ist sogar mit einigen 7-Milliarden-Parameter-Modellen wettbewerbsfähig. Darüber hinaus bietet BTLM-3B-8K eine hervorragende Leistung bei langen Kontexten und übertrifft MPT-7B-8K und XGen-7B-8K bei Aufgaben mit einer Kontextlänge von bis zu 8.192. Wir haben das Modell auf einem bereinigten und deduplizierten SlimPajama-Datensatz trainiert, die \textmu P-Hyperparameter und den Zeitplan aggressiv optimiert, ALiBi-Positionsembedding verwendet und die SwiGLU-Nichtlinearität übernommen. Auf Hugging Face haben die beliebtesten Modelle 7 Milliarden Parameter, was darauf hindeutet, dass Benutzer das Qualitäts-Größen-Verhältnis von 7-Milliarden-Parameter-Modellen bevorzugen. Die Komprimierung eines 7-Milliarden-Parameter-Modells auf eines mit 3 Milliarden Parametern bei minimalem Leistungsverlust ist ein wichtiger Meilenstein. BTLM-3B-8K benötigt nur 3 GB Speicher bei 4-Bit-Genauigkeit und benötigt 2,5-mal weniger Rechenleistung für die Inferenz als 7-Milliarden-Parameter-Modelle, was den Zugang zu einem leistungsstarken Sprachmodell auf mobilen und Edge-Geräten erleichtert. BTLM-3B-8K ist unter einer Apache-2.0-Lizenz auf Hugging Face verfügbar: https://huggingface.co/cerebras/btlm-3b-8k-base.
English
We introduce the Bittensor Language Model, called "BTLM-3B-8K", a new state-of-the-art 3 billion parameter open-source language model. BTLM-3B-8K was trained on 627B tokens from the SlimPajama dataset with a mixture of 2,048 and 8,192 context lengths. BTLM-3B-8K outperforms all existing 3B parameter models by 2-5.5% across downstream tasks. BTLM-3B-8K is even competitive with some 7B parameter models. Additionally, BTLM-3B-8K provides excellent long context performance, outperforming MPT-7B-8K and XGen-7B-8K on tasks up to 8,192 context length. We trained the model on a cleaned and deduplicated SlimPajama dataset; aggressively tuned the \textmu P hyperparameters and schedule; used ALiBi position embeddings; and adopted the SwiGLU nonlinearity. On Hugging Face, the most popular models have 7B parameters, indicating that users prefer the quality-size ratio of 7B models. Compacting the 7B parameter model to one with 3B parameters, with little performance impact, is an important milestone. BTLM-3B-8K needs only 3GB of memory with 4-bit precision and takes 2.5x less inference compute than 7B models, helping to open up access to a powerful language model on mobile and edge devices. BTLM-3B-8K is available under an Apache 2.0 license on Hugging Face: https://huggingface.co/cerebras/btlm-3b-8k-base.
PDF102December 15, 2024