Jamba-1.5: Hybrid Transformer-Mamba Modelle im großen Maßstab

Zusammenfassung

Wir präsentieren Jamba-1.5, neue anweisungsoptimierte große Sprachmodelle, die auf unserer Jamba-Architektur basieren. Jamba ist eine hybride Transformer-Mamba-Mixture-of-Experts-Architektur, die eine hohe Durchsatzrate und einen geringen Speicherverbrauch über verschiedene Kontextlängen hinweg bietet, während sie die gleiche oder bessere Qualität wie Transformer-Modelle beibehält. Wir veröffentlichen zwei Modellgrößen: Jamba-1.5-Large mit 94 Milliarden aktiven Parametern und Jamba-1.5-Mini mit 12 Milliarden aktiven Parametern. Beide Modelle sind für eine Vielzahl von Konversations- und Anweisungsfolgefähigkeiten feinabgestimmt und haben eine effektive Kontextlänge von 256.000 Tokens, die größte unter den Open-Weight-Modellen. Um kostengünstige Inferenz zu unterstützen, führen wir ExpertsInt8 ein, eine neuartige Quantisierungstechnik, die es ermöglicht, Jamba-1.5-Large auf einer Maschine mit 8 80-GB-GPUs zu platzieren, wenn 256.000-Token-Kontexte verarbeitet werden, ohne Qualitätsverlust. Bei der Evaluierung anhand einer Reihe von akademischen und Chatbot-Benchmarks erzielen die Jamba-1.5-Modelle ausgezeichnete Ergebnisse, bieten hohe Durchsatzraten und übertreffen andere Open-Weight-Modelle in Benchmarks mit langen Kontexten. Die Modellgewichte für beide Größen sind öffentlich unter der Jamba Open Model License verfügbar, und wir veröffentlichen ExpertsInt8 als Open Source.

English

We present Jamba-1.5, new instruction-tuned large language models based on our Jamba architecture. Jamba is a hybrid Transformer-Mamba mixture of experts architecture, providing high throughput and low memory usage across context lengths, while retaining the same or better quality as Transformer models. We release two model sizes: Jamba-1.5-Large, with 94B active parameters, and Jamba-1.5-Mini, with 12B active parameters. Both models are fine-tuned for a variety of conversational and instruction-following capabilties, and have an effective context length of 256K tokens, the largest amongst open-weight models. To support cost-effective inference, we introduce ExpertsInt8, a novel quantization technique that allows fitting Jamba-1.5-Large on a machine with 8 80GB GPUs when processing 256K-token contexts without loss of quality. When evaluated on a battery of academic and chatbot benchmarks, Jamba-1.5 models achieve excellent results while providing high throughput and outperforming other open-weight models on long-context benchmarks. The model weights for both sizes are publicly available under the Jamba Open Model License and we release ExpertsInt8 as open source.