ChatPaper.aiChatPaper

Zamba: Компактная гибридная модель SSM на 7 миллиардов параметров

Zamba: A Compact 7B SSM Hybrid Model

May 26, 2024
Авторы: Paolo Glorioso, Quentin Anthony, Yury Tokpanov, James Whittington, Jonathan Pilault, Adam Ibrahim, Beren Millidge
cs.AI

Аннотация

В данном техническом отчете мы представляем Zamba, новую гибридную модель 7B SSM-трансформера, которая достигает конкурентоспособной производительности по сравнению с ведущими моделями с открытым весом на сравнимом масштабе. Zamba обучается на 1T токенах из общедоступных наборов данных и является лучшей моделью без трансформера на данном масштабе. Zamba представляет собой уникальную архитектуру, объединяющую основу Mamba с одним общим модулем внимания, что позволяет получить преимущества внимания при минимальных затратах параметров. Благодаря своей архитектуре Zamba значительно быстрее в выводе, чем сравнимые модели трансформера, и требует значительно меньше памяти для генерации длинных последовательностей. Zamba предварительно обучается в две фазы: первая фаза основана на существующих веб-наборах данных, в то время как вторая состоит в отжиге модели на высококачественных инструктивных и синтетических наборах данных и характеризуется быстрым затуханием скорости обучения. Мы предоставляем веса и все контрольные точки для Zamba в открытом доступе, как для первой фазы, так и для фаз отжига.
English
In this technical report, we present Zamba, a novel 7B SSM-transformer hybrid model which achieves competitive performance against leading open-weight models at a comparable scale. Zamba is trained on 1T tokens from openly available datasets and is the best non-transformer model at this scale. Zamba pioneers a unique architecture combining a Mamba backbone with a single shared attention module, thus obtaining the benefits of attention at minimal parameter cost. Due to its architecture, Zamba is significantly faster at inference than comparable transformer models and requires substantially less memory for generation of long sequences. Zamba is pretrained in two phases: the first phase is based on existing web datasets, while the second one consists of annealing the model over high-quality instruct and synthetic datasets, and is characterized by a rapid learning rate decay. We open-source the weights and all checkpoints for Zamba, through both phase 1 and annealing phases.

Summary

AI-Generated Summary

PDF256December 12, 2024