BTLM-3B-8K: Rendimiento de 7B parámetros en un modelo de 3B parámetros
BTLM-3B-8K: 7B Parameter Performance in a 3B Parameter Model
September 20, 2023
Autores: Nolan Dey, Daria Soboleva, Faisal Al-Khateeb, Bowen Yang, Ribhu Pathria, Hemant Khachane, Shaheer Muhammad, Zhiming, Chen, Robert Myers, Jacob Robert Steeves, Natalia Vassilieva, Marvin Tom, Joel Hestness
cs.AI
Resumen
Presentamos el Modelo de Lenguaje Bittensor, denominado "BTLM-3B-8K", un nuevo modelo de lenguaje de código abierto con 3 mil millones de parámetros que establece un nuevo estado del arte. BTLM-3B-8K fue entrenado con 627 mil millones de tokens del conjunto de datos SlimPajama, utilizando una mezcla de longitudes de contexto de 2,048 y 8,192. BTLM-3B-8K supera a todos los modelos existentes de 3 mil millones de parámetros en un 2-5.5% en diversas tareas de evaluación. Incluso compite favorablemente con algunos modelos de 7 mil millones de parámetros. Además, BTLM-3B-8K ofrece un rendimiento excepcional en contextos largos, superando a MPT-7B-8K y XGen-7B-8K en tareas con longitudes de contexto de hasta 8,192. Entrenamos el modelo en una versión limpia y sin duplicados del conjunto de datos SlimPajama; ajustamos agresivamente los hiperparámetros y el plan de entrenamiento de \textmu P; utilizamos embeddings posicionales ALiBi; y adoptamos la no linealidad SwiGLU.
En Hugging Face, los modelos más populares tienen 7 mil millones de parámetros, lo que indica que los usuarios prefieren la relación calidad-tamaño de los modelos de 7B. Compactar un modelo de 7 mil millones de parámetros a uno de 3 mil millones, con un impacto mínimo en el rendimiento, es un hito importante. BTLM-3B-8K requiere solo 3GB de memoria con precisión de 4 bits y utiliza 2.5 veces menos cómputo en la inferencia que los modelos de 7B, lo que facilita el acceso a un modelo de lenguaje potente en dispositivos móviles y de borde. BTLM-3B-8K está disponible bajo la licencia Apache 2.0 en Hugging Face: https://huggingface.co/cerebras/btlm-3b-8k-base.
English
We introduce the Bittensor Language Model, called "BTLM-3B-8K", a new
state-of-the-art 3 billion parameter open-source language model. BTLM-3B-8K was
trained on 627B tokens from the SlimPajama dataset with a mixture of 2,048 and
8,192 context lengths. BTLM-3B-8K outperforms all existing 3B parameter models
by 2-5.5% across downstream tasks. BTLM-3B-8K is even competitive with some 7B
parameter models. Additionally, BTLM-3B-8K provides excellent long context
performance, outperforming MPT-7B-8K and XGen-7B-8K on tasks up to 8,192
context length. We trained the model on a cleaned and deduplicated SlimPajama
dataset; aggressively tuned the \textmu P hyperparameters and schedule; used
ALiBi position embeddings; and adopted the SwiGLU nonlinearity.
On Hugging Face, the most popular models have 7B parameters, indicating that
users prefer the quality-size ratio of 7B models. Compacting the 7B parameter
model to one with 3B parameters, with little performance impact, is an
important milestone. BTLM-3B-8K needs only 3GB of memory with 4-bit precision
and takes 2.5x less inference compute than 7B models, helping to open up access
to a powerful language model on mobile and edge devices. BTLM-3B-8K is
available under an Apache 2.0 license on Hugging Face:
https://huggingface.co/cerebras/btlm-3b-8k-base.