BTLM-3B-8K: Prestaties van 7B parameters in een model met 3B parameters
BTLM-3B-8K: 7B Parameter Performance in a 3B Parameter Model
September 20, 2023
Auteurs: Nolan Dey, Daria Soboleva, Faisal Al-Khateeb, Bowen Yang, Ribhu Pathria, Hemant Khachane, Shaheer Muhammad, Zhiming, Chen, Robert Myers, Jacob Robert Steeves, Natalia Vassilieva, Marvin Tom, Joel Hestness
cs.AI
Samenvatting
We introduceren het Bittensor Language Model, genaamd "BTLM-3B-8K", een nieuw state-of-the-art open-source taalmodel met 3 miljard parameters. BTLM-3B-8K is getraind op 627B tokens uit de SlimPajama-dataset met een mix van contextlengtes van 2.048 en 8.192. BTLM-3B-8K overtreft alle bestaande modellen met 3B parameters met 2-5,5% op downstream taken. BTLM-3B-8K is zelfs concurrerend met sommige modellen van 7B parameters. Daarnaast biedt BTLM-3B-8K uitstekende prestaties bij lange contexten, waarbij het MPT-7B-8K en XGen-7B-8K overtreft op taken tot een contextlengte van 8.192. We hebben het model getraind op een gereinigde en gededupliceerde SlimPajama-dataset; agressief de \textmu P-hyperparameters en het schema afgestemd; ALiBi-positie-embeddingen gebruikt; en de SwiGLU-nonlineariteit geadopteerd.
Op Hugging Face hebben de meest populaire modellen 7B parameters, wat aangeeft dat gebruikers de kwaliteit-grootte verhouding van 7B-modellen prefereren. Het comprimeren van het 7B-parameter model naar een model met 3B parameters, met weinig prestatieverlies, is een belangrijke mijlpaal. BTLM-3B-8K heeft slechts 3GB geheugen nodig met 4-bit precisie en vereist 2,5x minder rekencapaciteit voor inferentie dan 7B-modellen, wat helpt om toegang te openen tot een krachtig taalmodel op mobiele en edge-apparaten. BTLM-3B-8K is beschikbaar onder een Apache 2.0-licentie op Hugging Face: https://huggingface.co/cerebras/btlm-3b-8k-base.
English
We introduce the Bittensor Language Model, called "BTLM-3B-8K", a new
state-of-the-art 3 billion parameter open-source language model. BTLM-3B-8K was
trained on 627B tokens from the SlimPajama dataset with a mixture of 2,048 and
8,192 context lengths. BTLM-3B-8K outperforms all existing 3B parameter models
by 2-5.5% across downstream tasks. BTLM-3B-8K is even competitive with some 7B
parameter models. Additionally, BTLM-3B-8K provides excellent long context
performance, outperforming MPT-7B-8K and XGen-7B-8K on tasks up to 8,192
context length. We trained the model on a cleaned and deduplicated SlimPajama
dataset; aggressively tuned the \textmu P hyperparameters and schedule; used
ALiBi position embeddings; and adopted the SwiGLU nonlinearity.
On Hugging Face, the most popular models have 7B parameters, indicating that
users prefer the quality-size ratio of 7B models. Compacting the 7B parameter
model to one with 3B parameters, with little performance impact, is an
important milestone. BTLM-3B-8K needs only 3GB of memory with 4-bit precision
and takes 2.5x less inference compute than 7B models, helping to open up access
to a powerful language model on mobile and edge devices. BTLM-3B-8K is
available under an Apache 2.0 license on Hugging Face:
https://huggingface.co/cerebras/btlm-3b-8k-base.