ChatPaper.aiChatPaper

BTLM-3B-8K: Rendimiento de 7B parámetros en un modelo de 3B parámetros

BTLM-3B-8K: 7B Parameter Performance in a 3B Parameter Model

September 20, 2023
Autores: Nolan Dey, Daria Soboleva, Faisal Al-Khateeb, Bowen Yang, Ribhu Pathria, Hemant Khachane, Shaheer Muhammad, Zhiming, Chen, Robert Myers, Jacob Robert Steeves, Natalia Vassilieva, Marvin Tom, Joel Hestness
cs.AI

Resumen

Presentamos el Modelo de Lenguaje Bittensor, denominado "BTLM-3B-8K", un nuevo modelo de lenguaje de código abierto con 3 mil millones de parámetros que establece un nuevo estado del arte. BTLM-3B-8K fue entrenado con 627 mil millones de tokens del conjunto de datos SlimPajama, utilizando una mezcla de longitudes de contexto de 2,048 y 8,192. BTLM-3B-8K supera a todos los modelos existentes de 3 mil millones de parámetros en un 2-5.5% en diversas tareas de evaluación. Incluso compite favorablemente con algunos modelos de 7 mil millones de parámetros. Además, BTLM-3B-8K ofrece un rendimiento excepcional en contextos largos, superando a MPT-7B-8K y XGen-7B-8K en tareas con longitudes de contexto de hasta 8,192. Entrenamos el modelo en una versión limpia y sin duplicados del conjunto de datos SlimPajama; ajustamos agresivamente los hiperparámetros y el plan de entrenamiento de \textmu P; utilizamos embeddings posicionales ALiBi; y adoptamos la no linealidad SwiGLU. En Hugging Face, los modelos más populares tienen 7 mil millones de parámetros, lo que indica que los usuarios prefieren la relación calidad-tamaño de los modelos de 7B. Compactar un modelo de 7 mil millones de parámetros a uno de 3 mil millones, con un impacto mínimo en el rendimiento, es un hito importante. BTLM-3B-8K requiere solo 3GB de memoria con precisión de 4 bits y utiliza 2.5 veces menos cómputo en la inferencia que los modelos de 7B, lo que facilita el acceso a un modelo de lenguaje potente en dispositivos móviles y de borde. BTLM-3B-8K está disponible bajo la licencia Apache 2.0 en Hugging Face: https://huggingface.co/cerebras/btlm-3b-8k-base.
English
We introduce the Bittensor Language Model, called "BTLM-3B-8K", a new state-of-the-art 3 billion parameter open-source language model. BTLM-3B-8K was trained on 627B tokens from the SlimPajama dataset with a mixture of 2,048 and 8,192 context lengths. BTLM-3B-8K outperforms all existing 3B parameter models by 2-5.5% across downstream tasks. BTLM-3B-8K is even competitive with some 7B parameter models. Additionally, BTLM-3B-8K provides excellent long context performance, outperforming MPT-7B-8K and XGen-7B-8K on tasks up to 8,192 context length. We trained the model on a cleaned and deduplicated SlimPajama dataset; aggressively tuned the \textmu P hyperparameters and schedule; used ALiBi position embeddings; and adopted the SwiGLU nonlinearity. On Hugging Face, the most popular models have 7B parameters, indicating that users prefer the quality-size ratio of 7B models. Compacting the 7B parameter model to one with 3B parameters, with little performance impact, is an important milestone. BTLM-3B-8K needs only 3GB of memory with 4-bit precision and takes 2.5x less inference compute than 7B models, helping to open up access to a powerful language model on mobile and edge devices. BTLM-3B-8K is available under an Apache 2.0 license on Hugging Face: https://huggingface.co/cerebras/btlm-3b-8k-base.
PDF102December 15, 2024