MiniMax-01:使用閃電關注機制擴展基礎模型MiniMax-01: Scaling Foundation Models with Lightning Attention
我們介紹了MiniMax-01系列,包括MiniMax-Text-01和MiniMax-VL-01,這兩款模型與頂尖模型可媲美,同時在處理更長上下文方面具有優越能力。其核心在於閃電注意力及其高效擴展。為了最大化計算能力,我們將其與專家混合(MoE)相結合,創建了一個擁有32位專家和4560億總參數的模型,其中每個標記激活了459億參數。我們為MoE和閃電注意力開發了優化的並行策略和高效的計算-通信重疊技術。這種方法使我們能夠對跨越數百億參數的模型進行有效的訓練和推斷,涵蓋數百萬標記的上下文。MiniMax-Text-01的上下文窗口在訓練期間可達到100萬標記,在推斷期間可擴展到400萬標記,成本合理。我們的視覺語言模型MiniMax-VL-01是通過持續訓練5120億視覺語言標記構建的。在標準和內部基準測試中進行的實驗表明,我們的模型與GPT-4o和Claude-3.5-Sonnet等最先進模型的性能相匹敵,同時提供20-32倍更長的上下文窗口。我們在https://github.com/MiniMax-AI 上公開發布了MiniMax-01。