Zamba: Компактная гибридная модель SSM на 7 миллиардов параметров
Zamba: A Compact 7B SSM Hybrid Model
May 26, 2024
Авторы: Paolo Glorioso, Quentin Anthony, Yury Tokpanov, James Whittington, Jonathan Pilault, Adam Ibrahim, Beren Millidge
cs.AI
Аннотация
В данном техническом отчете мы представляем Zamba, новую гибридную модель 7B SSM-трансформера, которая достигает конкурентоспособной производительности по сравнению с ведущими моделями с открытым весом на сравнимом масштабе. Zamba обучается на 1T токенах из общедоступных наборов данных и является лучшей моделью без трансформера на данном масштабе. Zamba представляет собой уникальную архитектуру, объединяющую основу Mamba с одним общим модулем внимания, что позволяет получить преимущества внимания при минимальных затратах параметров. Благодаря своей архитектуре Zamba значительно быстрее в выводе, чем сравнимые модели трансформера, и требует значительно меньше памяти для генерации длинных последовательностей. Zamba предварительно обучается в две фазы: первая фаза основана на существующих веб-наборах данных, в то время как вторая состоит в отжиге модели на высококачественных инструктивных и синтетических наборах данных и характеризуется быстрым затуханием скорости обучения. Мы предоставляем веса и все контрольные точки для Zamba в открытом доступе, как для первой фазы, так и для фаз отжига.
English
In this technical report, we present Zamba, a novel 7B SSM-transformer hybrid
model which achieves competitive performance against leading open-weight models
at a comparable scale. Zamba is trained on 1T tokens from openly available
datasets and is the best non-transformer model at this scale. Zamba pioneers a
unique architecture combining a Mamba backbone with a single shared attention
module, thus obtaining the benefits of attention at minimal parameter cost. Due
to its architecture, Zamba is significantly faster at inference than comparable
transformer models and requires substantially less memory for generation of
long sequences. Zamba is pretrained in two phases: the first phase is based on
existing web datasets, while the second one consists of annealing the model
over high-quality instruct and synthetic datasets, and is characterized by a
rapid learning rate decay. We open-source the weights and all checkpoints for
Zamba, through both phase 1 and annealing phases.Summary
AI-Generated Summary