ChatPaper.aiChatPaper

Zamba: Un Modello Ibrido SSM Compatto da 7B

Zamba: A Compact 7B SSM Hybrid Model

May 26, 2024
Autori: Paolo Glorioso, Quentin Anthony, Yury Tokpanov, James Whittington, Jonathan Pilault, Adam Ibrahim, Beren Millidge
cs.AI

Abstract

In questo rapporto tecnico, presentiamo Zamba, un nuovo modello ibrido SSM-transformer da 7B che raggiunge prestazioni competitive rispetto ai principali modelli open-weight di scala comparabile. Zamba è addestrato su 1T di token provenienti da dataset disponibili pubblicamente ed è il miglior modello non-transformer a questa scala. Zamba introduce un'architettura unica che combina un backbone Mamba con un singolo modulo di attenzione condiviso, ottenendo così i vantaggi dell'attenzione a un costo minimo di parametri. Grazie alla sua architettura, Zamba è significativamente più veloce nell'inferenza rispetto ai modelli transformer comparabili e richiede sostanzialmente meno memoria per la generazione di sequenze lunghe. Zamba è preaddestrato in due fasi: la prima fase si basa su dataset web esistenti, mentre la seconda consiste nel ricotturare il modello su dataset di alta qualità di istruzioni e sintetici, ed è caratterizzata da un rapido decadimento del tasso di apprendimento. Rendiamo open-source i pesi e tutti i checkpoint di Zamba, sia per la fase 1 che per le fasi di ricottura.
English
In this technical report, we present Zamba, a novel 7B SSM-transformer hybrid model which achieves competitive performance against leading open-weight models at a comparable scale. Zamba is trained on 1T tokens from openly available datasets and is the best non-transformer model at this scale. Zamba pioneers a unique architecture combining a Mamba backbone with a single shared attention module, thus obtaining the benefits of attention at minimal parameter cost. Due to its architecture, Zamba is significantly faster at inference than comparable transformer models and requires substantially less memory for generation of long sequences. Zamba is pretrained in two phases: the first phase is based on existing web datasets, while the second one consists of annealing the model over high-quality instruct and synthetic datasets, and is characterized by a rapid learning rate decay. We open-source the weights and all checkpoints for Zamba, through both phase 1 and annealing phases.
PDF246December 12, 2024