MiniMax-01 : Mise à l'échelle des modèles de base avec Attention Éclair.MiniMax-01: Scaling Foundation Models with Lightning Attention
Nous introduisons la série MiniMax-01, comprenant MiniMax-Text-01 et MiniMax-VL-01, qui sont comparables aux modèles de premier plan tout en offrant des capacités supérieures dans le traitement de contextes plus longs. Le cœur réside dans l'attention éclair et son mise à l'échelle efficace. Pour maximiser la capacité de calcul, nous l'intégrons avec le Mélange d'Experts (MoE), créant un modèle avec 32 experts et 456 milliards de paramètres au total, dont 45,9 milliards sont activés pour chaque jeton. Nous développons une stratégie parallèle optimisée et des techniques de chevauchement calcul-communication hautement efficaces pour le MoE et l'attention éclair. Cette approche nous permet de mener un entraînement et une inférence efficaces sur des modèles avec des centaines de milliards de paramètres à travers des contextes couvrant des millions de jetons. La fenêtre de contexte de MiniMax-Text-01 peut atteindre jusqu'à 1 million de jetons pendant l'entraînement et s'extrapoler à 4 millions de jetons lors de l'inférence à un coût abordable. Notre modèle vision-langage, MiniMax-VL-01, est construit grâce à un entraînement continu avec 512 milliards de jetons vision-langage. Des expériences sur des benchmarks standard et internes montrent que nos modèles correspondent aux performances des modèles de pointe tels que GPT-4o et Claude-3.5-Sonnet tout en offrant une fenêtre de contexte 20 à 32 fois plus longue. Nous publions publiquement MiniMax-01 sur https://github.com/MiniMax-AI.