Jamba:一种混合Transformer-Mamba语言模型Jamba: A Hybrid Transformer-Mamba Language Model
我们提出了Jamba,这是一种基于新型混合Transformer-Mamba专家混合(MoE)架构的新型大型语言模型。具体而言,Jamba交错堆叠Transformer层和Mamba层,从而兼具两类模型的优势。在部分层中加入MoE,以提升模型容量,同时保持活跃参数的可控性。这种灵活架构支持资源和目标特定的配置。在我们实现的特定配置中,最终得到一个强大的模型,能够适应单个80GB GPU。Jamba在大规模构建时,相比传统Transformer,提供了更高的吞吐量和更小的内存占用,同时在标准语言模型基准测试和长上下文评估中达到了最先进的性能。值得注意的是,该模型在长达256K个token的上下文长度下表现出色。我们研究了多种架构决策,如如何结合Transformer和Mamba层,以及如何混合专家,并表明其中一些决策在大规模建模中至关重要。我们还描述了这些架构的几个有趣特性,这些特性是通过Jamba的训练和评估揭示的,并计划发布来自各种消融运行的检查点,以鼓励对该新型架构的进一步探索。我们以宽松的许可协议公开了Jamba实现中的权重。