Jamba-1.5: Hybride Transformer-Mamba-modellen op Schaal

Samenvatting

We presenteren Jamba-1.5, nieuwe instruction-tuned grote taalmodellen gebaseerd op onze Jamba-architectuur. Jamba is een hybride Transformer-Mamba mixture of experts-architectuur, die hoge doorvoersnelheid en laag geheugengebruik biedt over verschillende contextlengtes, terwijl dezelfde of betere kwaliteit behouden blijft in vergelijking met Transformer-modellen. We brengen twee modelgroottes uit: Jamba-1.5-Large, met 94B actieve parameters, en Jamba-1.5-Mini, met 12B actieve parameters. Beide modellen zijn verfijnd voor een verscheidenheid aan conversatie- en instructievolgende vaardigheden en hebben een effectieve contextlengte van 256K tokens, de grootste onder open-weight modellen. Om kosteneffectieve inferentie te ondersteunen, introduceren we ExpertsInt8, een nieuwe kwantizatietechniek die het mogelijk maakt om Jamba-1.5-Large op een machine met 8 80GB GPU's te laten draaien bij het verwerken van 256K-token contexten zonder kwaliteitsverlies. Wanneer geëvalueerd op een reeks academische en chatbot-benchmarks, behalen de Jamba-1.5-modellen uitstekende resultaten terwijl ze een hoge doorvoersnelheid bieden en andere open-weight modellen overtreffen op lange-context benchmarks. De modelgewichten voor beide groottes zijn publiekelijk beschikbaar onder de Jamba Open Model License en we brengen ExpertsInt8 uit als open source.

English

We present Jamba-1.5, new instruction-tuned large language models based on our Jamba architecture. Jamba is a hybrid Transformer-Mamba mixture of experts architecture, providing high throughput and low memory usage across context lengths, while retaining the same or better quality as Transformer models. We release two model sizes: Jamba-1.5-Large, with 94B active parameters, and Jamba-1.5-Mini, with 12B active parameters. Both models are fine-tuned for a variety of conversational and instruction-following capabilties, and have an effective context length of 256K tokens, the largest amongst open-weight models. To support cost-effective inference, we introduce ExpertsInt8, a novel quantization technique that allows fitting Jamba-1.5-Large on a machine with 8 80GB GPUs when processing 256K-token contexts without loss of quality. When evaluated on a battery of academic and chatbot benchmarks, Jamba-1.5 models achieve excellent results while providing high throughput and outperforming other open-weight models on long-context benchmarks. The model weights for both sizes are publicly available under the Jamba Open Model License and we release ExpertsInt8 as open source.

Jamba-1.5: Hybride Transformer-Mamba-modellen op Schaal

Jamba-1.5: Hybrid Transformer-Mamba Models at Scale

Samenvatting

Support