Jamba-1.5: Modelli Ibridi Transformer-Mamba su Larga Scala
Jamba-1.5: Hybrid Transformer-Mamba Models at Scale
August 22, 2024
Autori: Jamba Team, Barak Lenz, Alan Arazi, Amir Bergman, Avshalom Manevich, Barak Peleg, Ben Aviram, Chen Almagor, Clara Fridman, Dan Padnos, Daniel Gissin, Daniel Jannai, Dor Muhlgay, Dor Zimberg, Edden M Gerber, Elad Dolev, Eran Krakovsky, Erez Safahi, Erez Schwartz, Gal Cohen, Gal Shachaf, Haim Rozenblum, Hofit Bata, Ido Blass, Inbal Magar, Itay Dalmedigos, Jhonathan Osin, Julie Fadlon, Maria Rozman, Matan Danos, Michael Gokhman, Mor Zusman, Naama Gidron, Nir Ratner, Noam Gat, Noam Rozen, Oded Fried, Ohad Leshno, Omer Antverg, Omri Abend, Opher Lieber, Or Dagan, Orit Cohavi, Raz Alon, Ro'i Belson, Roi Cohen, Rom Gilad, Roman Glozman, Shahar Lev, Shaked Meirom, Tal Delbari, Tal Ness, Tomer Asida, Tom Ben Gal, Tom Braude, Uriya Pumerantz, Yehoshua Cohen, Yonatan Belinkov, Yuval Globerson, Yuval Peleg Levy, Yoav Shoham
cs.AI
Abstract
Presentiamo Jamba-1.5, nuovi modelli linguistici di grandi dimensioni ottimizzati per istruzioni basati sulla nostra architettura Jamba. Jamba è un'architettura ibrida Transformer-Mamba a miscela di esperti, che offre un'elevata produttività e un basso utilizzo di memoria su diverse lunghezze di contesto, mantenendo la stessa qualità o superiore rispetto ai modelli Transformer. Rilasciamo due dimensioni di modello: Jamba-1.5-Large, con 94 miliardi di parametri attivi, e Jamba-1.5-Mini, con 12 miliardi di parametri attivi. Entrambi i modelli sono stati ottimizzati per una varietà di capacità conversazionali e di esecuzione di istruzioni, e hanno una lunghezza di contesto effettiva di 256.000 token, la più ampia tra i modelli open-weight. Per supportare un'inferenza economicamente vantaggiosa, introduciamo ExpertsInt8, una nuova tecnica di quantizzazione che consente di adattare Jamba-1.5-Large su una macchina con 8 GPU da 80GB quando si elaborano contesti di 256.000 token senza perdita di qualità. Quando valutati su una serie di benchmark accademici e di chatbot, i modelli Jamba-1.5 ottengono risultati eccellenti, fornendo un'elevata produttività e superando altri modelli open-weight sui benchmark a lungo contesto. I pesi del modello per entrambe le dimensioni sono disponibili pubblicamente sotto la Jamba Open Model License e rilasciamo ExpertsInt8 come open source.
English
We present Jamba-1.5, new instruction-tuned large language models based on
our Jamba architecture. Jamba is a hybrid Transformer-Mamba mixture of experts
architecture, providing high throughput and low memory usage across context
lengths, while retaining the same or better quality as Transformer models. We
release two model sizes: Jamba-1.5-Large, with 94B active parameters, and
Jamba-1.5-Mini, with 12B active parameters. Both models are fine-tuned for a
variety of conversational and instruction-following capabilties, and have an
effective context length of 256K tokens, the largest amongst open-weight
models. To support cost-effective inference, we introduce ExpertsInt8, a novel
quantization technique that allows fitting Jamba-1.5-Large on a machine with 8
80GB GPUs when processing 256K-token contexts without loss of quality. When
evaluated on a battery of academic and chatbot benchmarks, Jamba-1.5 models
achieve excellent results while providing high throughput and outperforming
other open-weight models on long-context benchmarks. The model weights for both
sizes are publicly available under the Jamba Open Model License and we release
ExpertsInt8 as open source.