Zamba: Ein kompaktes 7B SSM Hybridmodell
Zamba: A Compact 7B SSM Hybrid Model
May 26, 2024
Autoren: Paolo Glorioso, Quentin Anthony, Yury Tokpanov, James Whittington, Jonathan Pilault, Adam Ibrahim, Beren Millidge
cs.AI
Zusammenfassung
In diesem technischen Bericht präsentieren wir Zamba, ein neuartiges 7B SSM-Transformer-Hybridmodell, das eine wettbewerbsfähige Leistung gegen führende Open-Weight-Modelle bei vergleichbarer Skalierung erzielt. Zamba wird auf 1T Tokens aus frei verfügbaren Datensätzen trainiert und ist das beste Nicht-Transformer-Modell in diesem Umfang. Zamba führt eine einzigartige Architektur ein, die einen Mamba-Backbone mit einem einzigen gemeinsamen Aufmerksamkeitsmodul kombiniert und somit die Vorteile der Aufmerksamkeit bei minimalen Parameterkosten nutzt. Aufgrund seiner Architektur ist Zamba bei der Inferenz signifikant schneller als vergleichbare Transformer-Modelle und erfordert wesentlich weniger Speicherplatz für die Generierung langer Sequenzen. Zamba wird in zwei Phasen vorab trainiert: Die erste Phase basiert auf vorhandenen Webdatensätzen, während die zweite Phase darin besteht, das Modell über hochwertige Instruct- und synthetische Datensätze zu annealen und durch ein schnelles Absinken der Lernrate gekennzeichnet ist. Wir stellen die Gewichte und alle Checkpoints für Zamba als Open-Source zur Verfügung, sowohl für Phase 1 als auch für die Annealing-Phasen.
English
In this technical report, we present Zamba, a novel 7B SSM-transformer hybrid
model which achieves competitive performance against leading open-weight models
at a comparable scale. Zamba is trained on 1T tokens from openly available
datasets and is the best non-transformer model at this scale. Zamba pioneers a
unique architecture combining a Mamba backbone with a single shared attention
module, thus obtaining the benefits of attention at minimal parameter cost. Due
to its architecture, Zamba is significantly faster at inference than comparable
transformer models and requires substantially less memory for generation of
long sequences. Zamba is pretrained in two phases: the first phase is based on
existing web datasets, while the second one consists of annealing the model
over high-quality instruct and synthetic datasets, and is characterized by a
rapid learning rate decay. We open-source the weights and all checkpoints for
Zamba, through both phase 1 and annealing phases.Summary
AI-Generated Summary