MiniMax-01: ライトニングアテンションを用いたファウンデーションモデルのスケーリングMiniMax-01: Scaling Foundation Models with Lightning Attention
MiniMax-01シリーズを紹介します。これにはMiniMax-Text-01とMiniMax-VL-01が含まれており、トップモデルに匹敵しながらも、より長い文脈を処理する優れた機能を提供しています。その中核は、光速アテンションとその効率的なスケーリングにあります。計算能力を最大限に活用するために、32の専門家と4560億の合計パラメータを持つMixture of Experts(MoE)と統合しました。そのうち、各トークンに対して活性化されるのは459億です。MoEと光速アテンションのために最適化された並列戦略と非常に効率的な計算-通信の重なり技術を開発しました。このアプローチにより、数億のパラメータを持つモデルにおいて、数百万のトークンにわたる文脈で効率的なトレーニングと推論を行うことが可能となります。MiniMax-Text-01の文脈ウィンドウは、トレーニング中に最大100万トークンに達し、推論時には400万トークンまで拡張されますが、手頃なコストで実現します。また、ビジョン言語モデルであるMiniMax-VL-01は、5120億のビジョン言語トークンで継続的にトレーニングされて構築されています。標準および社内ベンチマークでの実験結果によると、GPT-4oやClaude-3.5-Sonnetなどの最先端モデルと同等の性能を発揮し、20〜32倍長い文脈ウィンドウを提供しています。MiniMax-01はhttps://github.com/MiniMax-AI で公開されています。