MiniMax-01:使用闪电注意力扩展基础模型MiniMax-01: Scaling Foundation Models with Lightning Attention
我们介绍MiniMax-01系列,包括MiniMax-Text-01和MiniMax-VL-01,这些模型可与顶尖模型相媲美,同时在处理更长上下文方面具有卓越能力。其核心在于闪电注意力及其高效扩展。为了最大化计算能力,我们将其与专家混合(MoE)相结合,创建了一个拥有32位专家和4560亿总参数的模型,其中每个标记激活了459亿个参数。我们开发了一种优化的并行策略和高效的计算-通信重叠技术,用于MoE和闪电注意力。这种方法使我们能够在跨越数百万标记的上下文中进行拥有数千亿参数的模型的高效训练和推断。MiniMax-Text-01的上下文窗口在训练期间可达到100万个标记,并在推断期间以可负担的成本扩展到400万个标记。我们的视觉语言模型MiniMax-VL-01是通过持续训练获得的,包括5120亿视觉语言标记。对标准和内部基准的实验表明,我们的模型与GPT-4o和Claude-3.5-Sonnet等最先进模型的性能相匹配,同时提供20-32倍更长的上下文窗口。我们在https://github.com/MiniMax-AI 上公开发布了MiniMax-01。