BTLM-3B-8K: Rendimiento de 7B parámetros en un modelo de 3B parámetros

Resumen

Presentamos el Modelo de Lenguaje Bittensor, denominado "BTLM-3B-8K", un nuevo modelo de lenguaje de código abierto con 3 mil millones de parámetros que establece un nuevo estado del arte. BTLM-3B-8K fue entrenado con 627 mil millones de tokens del conjunto de datos SlimPajama, utilizando una mezcla de longitudes de contexto de 2,048 y 8,192. BTLM-3B-8K supera a todos los modelos existentes de 3 mil millones de parámetros en un 2-5.5% en diversas tareas de evaluación. Incluso compite favorablemente con algunos modelos de 7 mil millones de parámetros. Además, BTLM-3B-8K ofrece un rendimiento excepcional en contextos largos, superando a MPT-7B-8K y XGen-7B-8K en tareas con longitudes de contexto de hasta 8,192. Entrenamos el modelo en una versión limpia y sin duplicados del conjunto de datos SlimPajama; ajustamos agresivamente los hiperparámetros y el plan de entrenamiento de \textmu P; utilizamos embeddings posicionales ALiBi; y adoptamos la no linealidad SwiGLU. En Hugging Face, los modelos más populares tienen 7 mil millones de parámetros, lo que indica que los usuarios prefieren la relación calidad-tamaño de los modelos de 7B. Compactar un modelo de 7 mil millones de parámetros a uno de 3 mil millones, con un impacto mínimo en el rendimiento, es un hito importante. BTLM-3B-8K requiere solo 3GB de memoria con precisión de 4 bits y utiliza 2.5 veces menos cómputo en la inferencia que los modelos de 7B, lo que facilita el acceso a un modelo de lenguaje potente en dispositivos móviles y de borde. BTLM-3B-8K está disponible bajo la licencia Apache 2.0 en Hugging Face: https://huggingface.co/cerebras/btlm-3b-8k-base.

English

We introduce the Bittensor Language Model, called "BTLM-3B-8K", a new state-of-the-art 3 billion parameter open-source language model. BTLM-3B-8K was trained on 627B tokens from the SlimPajama dataset with a mixture of 2,048 and 8,192 context lengths. BTLM-3B-8K outperforms all existing 3B parameter models by 2-5.5% across downstream tasks. BTLM-3B-8K is even competitive with some 7B parameter models. Additionally, BTLM-3B-8K provides excellent long context performance, outperforming MPT-7B-8K and XGen-7B-8K on tasks up to 8,192 context length. We trained the model on a cleaned and deduplicated SlimPajama dataset; aggressively tuned the \textmu P hyperparameters and schedule; used ALiBi position embeddings; and adopted the SwiGLU nonlinearity. On Hugging Face, the most popular models have 7B parameters, indicating that users prefer the quality-size ratio of 7B models. Compacting the 7B parameter model to one with 3B parameters, with little performance impact, is an important milestone. BTLM-3B-8K needs only 3GB of memory with 4-bit precision and takes 2.5x less inference compute than 7B models, helping to open up access to a powerful language model on mobile and edge devices. BTLM-3B-8K is available under an Apache 2.0 license on Hugging Face: https://huggingface.co/cerebras/btlm-3b-8k-base.

BTLM-3B-8K: Rendimiento de 7B parámetros en un modelo de 3B parámetros

BTLM-3B-8K: 7B Parameter Performance in a 3B Parameter Model

Resumen

Support