Jamba : Un modèle de langage hybride Transformer-MambaJamba: A Hybrid Transformer-Mamba Language Model
Nous présentons Jamba, un nouveau modèle de langage de base de grande taille, basé sur une architecture hybride novatrice combinant Transformer et Mamba avec un mécanisme de mixture d'experts (MoE). Plus précisément, Jamba entrelace des blocs de couches Transformer et Mamba, bénéficiant ainsi des avantages des deux familles de modèles. Le MoE est ajouté à certaines de ces couches pour augmenter la capacité du modèle tout en gardant l'utilisation des paramètres actifs gérable. Cette architecture flexible permet des configurations adaptées aux ressources et aux objectifs spécifiques. Dans la configuration particulière que nous avons implémentée, nous obtenons un modèle puissant qui tient sur un seul GPU de 80 Go. Conçu à grande échelle, Jamba offre un débit élevé et une empreinte mémoire réduite par rapport aux Transformers classiques, tout en atteignant des performances de pointe sur les benchmarks standards de modèles de langage et les évaluations de contexte long. De manière remarquable, le modèle présente des résultats solides pour des contextes allant jusqu'à 256 000 tokens. Nous étudions diverses décisions architecturales, telles que la manière de combiner les couches Transformer et Mamba, et la façon de mélanger les experts, et montrons que certaines d'entre elles sont cruciales pour la modélisation à grande échelle. Nous décrivons également plusieurs propriétés intéressantes de ces architectures que l'entraînement et l'évaluation de Jamba ont révélées, et prévoyons de publier des points de contrôle issus de diverses expériences d'ablation, afin d'encourager l'exploration approfondie de cette architecture novatrice. Nous rendons les poids de notre implémentation de Jamba disponibles publiquement sous une licence permissive.