ChatPaper.aiChatPaper

Zamba: Een Compact 7B SSM Hybride Model

Zamba: A Compact 7B SSM Hybrid Model

May 26, 2024
Auteurs: Paolo Glorioso, Quentin Anthony, Yury Tokpanov, James Whittington, Jonathan Pilault, Adam Ibrahim, Beren Millidge
cs.AI

Samenvatting

In dit technische rapport presenteren we Zamba, een nieuw 7B SSM-transformer hybride model dat competitieve prestaties behaalt ten opzichte van toonaangevende open-weight modellen van vergelijkbare schaal. Zamba is getraind op 1T tokens uit openbaar beschikbare datasets en is het beste niet-transformer model op deze schaal. Zamba introduceert een unieke architectuur die een Mamba-backbone combineert met een enkele gedeelde aandachtmodule, waardoor de voordelen van aandacht worden behaald tegen minimale parameterkosten. Door zijn architectuur is Zamba aanzienlijk sneller in inferentie dan vergelijkbare transformer-modellen en heeft het aanzienlijk minder geheugen nodig voor het genereren van lange sequenties. Zamba wordt voorgetraind in twee fasen: de eerste fase is gebaseerd op bestaande webdatasets, terwijl de tweede fase bestaat uit het annealen van het model over hoogwaardige instructie- en synthetische datasets, en wordt gekenmerkt door een snelle afname van het leertempo. We maken de gewichten en alle checkpoints voor Zamba open-source, zowel voor fase 1 als voor de annealfasen.
English
In this technical report, we present Zamba, a novel 7B SSM-transformer hybrid model which achieves competitive performance against leading open-weight models at a comparable scale. Zamba is trained on 1T tokens from openly available datasets and is the best non-transformer model at this scale. Zamba pioneers a unique architecture combining a Mamba backbone with a single shared attention module, thus obtaining the benefits of attention at minimal parameter cost. Due to its architecture, Zamba is significantly faster at inference than comparable transformer models and requires substantially less memory for generation of long sequences. Zamba is pretrained in two phases: the first phase is based on existing web datasets, while the second one consists of annealing the model over high-quality instruct and synthetic datasets, and is characterized by a rapid learning rate decay. We open-source the weights and all checkpoints for Zamba, through both phase 1 and annealing phases.
PDF246December 12, 2024