BTLM-3B-8K: Производительность модели с 7 миллиардами параметров в модели с 3 миллиардами параметров
BTLM-3B-8K: 7B Parameter Performance in a 3B Parameter Model
September 20, 2023
Авторы: Nolan Dey, Daria Soboleva, Faisal Al-Khateeb, Bowen Yang, Ribhu Pathria, Hemant Khachane, Shaheer Muhammad, Zhiming, Chen, Robert Myers, Jacob Robert Steeves, Natalia Vassilieva, Marvin Tom, Joel Hestness
cs.AI
Аннотация
Мы представляем языковую модель Bittensor под названием "BTLM-3B-8K" — новую передовую открытую языковую модель с 3 миллиардами параметров. BTLM-3B-8K была обучена на 627 миллиардах токенов из набора данных SlimPajama с использованием смеси контекстных длин 2,048 и 8,192. BTLM-3B-8K превосходит все существующие модели с 3 миллиардами параметров на 2–5,5% в различных задачах. Более того, BTLM-3B-8K конкурирует с некоторыми моделями, имеющими 7 миллиардов параметров. Модель также демонстрирует выдающуюся производительность при работе с длинным контекстом, превосходя MPT-7B-8K и XGen-7B-8K в задачах с длиной контекста до 8,192 токенов. Мы обучили модель на очищенном и дедуплицированном наборе данных SlimPajama, тщательно настроили гиперпараметры \textmu P и график обучения, использовали позиционные эмбеддинги ALiBi и применили нелинейность SwiGLU.
На платформе Hugging Face наиболее популярные модели имеют 7 миллиардов параметров, что указывает на предпочтение пользователями баланса качества и размера, характерного для моделей такого масштаба. Сжатие модели с 7 миллиардами параметров до 3 миллиардов с минимальной потерей производительности является важным достижением. BTLM-3B-8K требует всего 3 ГБ памяти при 4-битной точности и в 2,5 раза меньше вычислительных ресурсов для вывода по сравнению с моделями на 7 миллиардов параметров, что делает мощную языковую модель доступной для использования на мобильных и периферийных устройствах. BTLM-3B-8K доступна под лицензией Apache 2.0 на Hugging Face: https://huggingface.co/cerebras/btlm-3b-8k-base.
English
We introduce the Bittensor Language Model, called "BTLM-3B-8K", a new
state-of-the-art 3 billion parameter open-source language model. BTLM-3B-8K was
trained on 627B tokens from the SlimPajama dataset with a mixture of 2,048 and
8,192 context lengths. BTLM-3B-8K outperforms all existing 3B parameter models
by 2-5.5% across downstream tasks. BTLM-3B-8K is even competitive with some 7B
parameter models. Additionally, BTLM-3B-8K provides excellent long context
performance, outperforming MPT-7B-8K and XGen-7B-8K on tasks up to 8,192
context length. We trained the model on a cleaned and deduplicated SlimPajama
dataset; aggressively tuned the \textmu P hyperparameters and schedule; used
ALiBi position embeddings; and adopted the SwiGLU nonlinearity.
On Hugging Face, the most popular models have 7B parameters, indicating that
users prefer the quality-size ratio of 7B models. Compacting the 7B parameter
model to one with 3B parameters, with little performance impact, is an
important milestone. BTLM-3B-8K needs only 3GB of memory with 4-bit precision
and takes 2.5x less inference compute than 7B models, helping to open up access
to a powerful language model on mobile and edge devices. BTLM-3B-8K is
available under an Apache 2.0 license on Hugging Face:
https://huggingface.co/cerebras/btlm-3b-8k-base.