Zamba: Ein kompaktes 7B SSM Hybridmodell

papers.abstract

In diesem technischen Bericht präsentieren wir Zamba, ein neuartiges 7B SSM-Transformer-Hybridmodell, das eine wettbewerbsfähige Leistung gegen führende Open-Weight-Modelle bei vergleichbarer Skalierung erzielt. Zamba wird auf 1T Tokens aus frei verfügbaren Datensätzen trainiert und ist das beste Nicht-Transformer-Modell in diesem Umfang. Zamba führt eine einzigartige Architektur ein, die einen Mamba-Backbone mit einem einzigen gemeinsamen Aufmerksamkeitsmodul kombiniert und somit die Vorteile der Aufmerksamkeit bei minimalen Parameterkosten nutzt. Aufgrund seiner Architektur ist Zamba bei der Inferenz signifikant schneller als vergleichbare Transformer-Modelle und erfordert wesentlich weniger Speicherplatz für die Generierung langer Sequenzen. Zamba wird in zwei Phasen vorab trainiert: Die erste Phase basiert auf vorhandenen Webdatensätzen, während die zweite Phase darin besteht, das Modell über hochwertige Instruct- und synthetische Datensätze zu annealen und durch ein schnelles Absinken der Lernrate gekennzeichnet ist. Wir stellen die Gewichte und alle Checkpoints für Zamba als Open-Source zur Verfügung, sowohl für Phase 1 als auch für die Annealing-Phasen.

English

In this technical report, we present Zamba, a novel 7B SSM-transformer hybrid model which achieves competitive performance against leading open-weight models at a comparable scale. Zamba is trained on 1T tokens from openly available datasets and is the best non-transformer model at this scale. Zamba pioneers a unique architecture combining a Mamba backbone with a single shared attention module, thus obtaining the benefits of attention at minimal parameter cost. Due to its architecture, Zamba is significantly faster at inference than comparable transformer models and requires substantially less memory for generation of long sequences. Zamba is pretrained in two phases: the first phase is based on existing web datasets, while the second one consists of annealing the model over high-quality instruct and synthetic datasets, and is characterized by a rapid learning rate decay. We open-source the weights and all checkpoints for Zamba, through both phase 1 and annealing phases.

Zamba: Ein kompaktes 7B SSM Hybridmodell

Zamba: A Compact 7B SSM Hybrid Model

papers.abstract

Support