ChatPaper.aiChatPaper

BTLM-3B-8K: Prestaties van 7B parameters in een model met 3B parameters

BTLM-3B-8K: 7B Parameter Performance in a 3B Parameter Model

September 20, 2023
Auteurs: Nolan Dey, Daria Soboleva, Faisal Al-Khateeb, Bowen Yang, Ribhu Pathria, Hemant Khachane, Shaheer Muhammad, Zhiming, Chen, Robert Myers, Jacob Robert Steeves, Natalia Vassilieva, Marvin Tom, Joel Hestness
cs.AI

Samenvatting

We introduceren het Bittensor Language Model, genaamd "BTLM-3B-8K", een nieuw state-of-the-art open-source taalmodel met 3 miljard parameters. BTLM-3B-8K is getraind op 627B tokens uit de SlimPajama-dataset met een mix van contextlengtes van 2.048 en 8.192. BTLM-3B-8K overtreft alle bestaande modellen met 3B parameters met 2-5,5% op downstream taken. BTLM-3B-8K is zelfs concurrerend met sommige modellen van 7B parameters. Daarnaast biedt BTLM-3B-8K uitstekende prestaties bij lange contexten, waarbij het MPT-7B-8K en XGen-7B-8K overtreft op taken tot een contextlengte van 8.192. We hebben het model getraind op een gereinigde en gededupliceerde SlimPajama-dataset; agressief de \textmu P-hyperparameters en het schema afgestemd; ALiBi-positie-embeddingen gebruikt; en de SwiGLU-nonlineariteit geadopteerd. Op Hugging Face hebben de meest populaire modellen 7B parameters, wat aangeeft dat gebruikers de kwaliteit-grootte verhouding van 7B-modellen prefereren. Het comprimeren van het 7B-parameter model naar een model met 3B parameters, met weinig prestatieverlies, is een belangrijke mijlpaal. BTLM-3B-8K heeft slechts 3GB geheugen nodig met 4-bit precisie en vereist 2,5x minder rekencapaciteit voor inferentie dan 7B-modellen, wat helpt om toegang te openen tot een krachtig taalmodel op mobiele en edge-apparaten. BTLM-3B-8K is beschikbaar onder een Apache 2.0-licentie op Hugging Face: https://huggingface.co/cerebras/btlm-3b-8k-base.
English
We introduce the Bittensor Language Model, called "BTLM-3B-8K", a new state-of-the-art 3 billion parameter open-source language model. BTLM-3B-8K was trained on 627B tokens from the SlimPajama dataset with a mixture of 2,048 and 8,192 context lengths. BTLM-3B-8K outperforms all existing 3B parameter models by 2-5.5% across downstream tasks. BTLM-3B-8K is even competitive with some 7B parameter models. Additionally, BTLM-3B-8K provides excellent long context performance, outperforming MPT-7B-8K and XGen-7B-8K on tasks up to 8,192 context length. We trained the model on a cleaned and deduplicated SlimPajama dataset; aggressively tuned the \textmu P hyperparameters and schedule; used ALiBi position embeddings; and adopted the SwiGLU nonlinearity. On Hugging Face, the most popular models have 7B parameters, indicating that users prefer the quality-size ratio of 7B models. Compacting the 7B parameter model to one with 3B parameters, with little performance impact, is an important milestone. BTLM-3B-8K needs only 3GB of memory with 4-bit precision and takes 2.5x less inference compute than 7B models, helping to open up access to a powerful language model on mobile and edge devices. BTLM-3B-8K is available under an Apache 2.0 license on Hugging Face: https://huggingface.co/cerebras/btlm-3b-8k-base.
PDF112December 15, 2024