Jamba:ハイブリッドTransformer-Mamba言語モデルJamba: A Hybrid Transformer-Mamba Language Model
我々は、新たなハイブリッドTransformer-Mamba mixture-of-experts(MoE)アーキテクチャに基づく新しい基盤大規模言語モデル、Jambaを発表します。具体的には、JambaはTransformer層とMamba層を交互に配置し、両モデルファミリーの利点を享受します。これらの層の一部にMoEを追加することで、モデルの容量を増やしつつ、アクティブなパラメータ使用量を管理可能な範囲に保ちます。この柔軟なアーキテクチャにより、リソースと目的に応じた設定が可能です。我々が実装した特定の設定では、単一の80GB GPUに収まる強力なモデルを実現しました。大規模に構築されたJambaは、従来のTransformerと比較して高いスループットと小さなメモリフットプリントを提供し、同時に標準的な言語モデルベンチマークおよび長文脈評価において最先端の性能を発揮します。特に、このモデルは最大256Kトークンの文脈長においても強力な結果を示します。我々は、Transformer層とMamba層をどのように組み合わせるか、エキスパートをどのように混合するかなど、さまざまなアーキテクチャ上の決定を研究し、そのいくつかが大規模モデリングにおいて重要であることを示します。また、Jambaのトレーニングと評価を通じて明らかになったこれらのアーキテクチャの興味深い特性についても説明し、さらなる探求を促すために、さまざまなアブレーション実行のチェックポイントを公開する予定です。我々は、Jambaの実装の重みを寛容なライセンスの下で公開します。