ChatPaper.aiChatPaper

BTLM-3B-8K: Desempenho de 7 Bilhões de Parâmetros em um Modelo de 3 Bilhões de Parâmetros

BTLM-3B-8K: 7B Parameter Performance in a 3B Parameter Model

September 20, 2023
Autores: Nolan Dey, Daria Soboleva, Faisal Al-Khateeb, Bowen Yang, Ribhu Pathria, Hemant Khachane, Shaheer Muhammad, Zhiming, Chen, Robert Myers, Jacob Robert Steeves, Natalia Vassilieva, Marvin Tom, Joel Hestness
cs.AI

Resumo

Apresentamos o Modelo de Linguagem Bittensor, denominado "BTLM-3B-8K", um novo modelo de linguagem de código aberto com 3 bilhões de parâmetros, que estabelece um novo estado da arte. O BTLM-3B-8K foi treinado com 627 bilhões de tokens do conjunto de dados SlimPajama, utilizando uma mistura de comprimentos de contexto de 2.048 e 8.192. O BTLM-3B-8K supera todos os modelos existentes com 3B de parâmetros em 2-5,5% em tarefas subsequentes e é competitivo até mesmo com alguns modelos de 7B de parâmetros. Além disso, o BTLM-3B-8K oferece um desempenho excepcional em contextos longos, superando o MPT-7B-8K e o XGen-7B-8K em tarefas com comprimento de contexto de até 8.192. O modelo foi treinado em uma versão limpa e deduplicada do conjunto de dados SlimPajama; os hiperparâmetros e o cronograma de \textmu P foram ajustados de forma agressiva; foram utilizados embeddings de posição ALiBi; e adotou-se a não linearidade SwiGLU. No Hugging Face, os modelos mais populares possuem 7B de parâmetros, indicando que os usuários preferem a relação qualidade-tamanho desses modelos. Compactar um modelo de 7B de parâmetros para um de 3B, com impacto mínimo no desempenho, é um marco importante. O BTLM-3B-8K requer apenas 3GB de memória com precisão de 4 bits e consome 2,5 vezes menos computação de inferência do que modelos de 7B, ajudando a democratizar o acesso a um modelo de linguagem poderoso em dispositivos móveis e de borda. O BTLM-3B-8K está disponível sob a licença Apache 2.0 no Hugging Face: https://huggingface.co/cerebras/btlm-3b-8k-base.
English
We introduce the Bittensor Language Model, called "BTLM-3B-8K", a new state-of-the-art 3 billion parameter open-source language model. BTLM-3B-8K was trained on 627B tokens from the SlimPajama dataset with a mixture of 2,048 and 8,192 context lengths. BTLM-3B-8K outperforms all existing 3B parameter models by 2-5.5% across downstream tasks. BTLM-3B-8K is even competitive with some 7B parameter models. Additionally, BTLM-3B-8K provides excellent long context performance, outperforming MPT-7B-8K and XGen-7B-8K on tasks up to 8,192 context length. We trained the model on a cleaned and deduplicated SlimPajama dataset; aggressively tuned the \textmu P hyperparameters and schedule; used ALiBi position embeddings; and adopted the SwiGLU nonlinearity. On Hugging Face, the most popular models have 7B parameters, indicating that users prefer the quality-size ratio of 7B models. Compacting the 7B parameter model to one with 3B parameters, with little performance impact, is an important milestone. BTLM-3B-8K needs only 3GB of memory with 4-bit precision and takes 2.5x less inference compute than 7B models, helping to open up access to a powerful language model on mobile and edge devices. BTLM-3B-8K is available under an Apache 2.0 license on Hugging Face: https://huggingface.co/cerebras/btlm-3b-8k-base.
PDF112December 15, 2024