MiniMax-01: Scalare i modelli di base con attenzione lampeggianteMiniMax-01: Scaling Foundation Models with Lightning Attention
Introduciamo la serie MiniMax-01, che include MiniMax-Text-01 e MiniMax-VL-01, paragonabili ai modelli di alto livello offrendo capacità superiori nel processare contesti più lunghi. Il nucleo risiede nell'attenzione fulminea e nel suo efficiente scalabilità. Per massimizzare la capacità computazionale, lo integriamo con il Mixture of Experts (MoE), creando un modello con 32 esperti e 456 miliardi di parametri totali, di cui 45,9 miliardi sono attivati per ogni token. Sviluppiamo una strategia parallela ottimizzata e tecniche di sovrapposizione computazione-comunicazione altamente efficienti per MoE e attenzione fulminea. Questo approccio ci consente di condurre addestramenti efficienti e inferenze su modelli con centinaia di miliardi di parametri attraverso contesti che spaziano su milioni di token. La finestra di contesto di MiniMax-Text-01 può raggiungere fino a 1 milione di token durante l'addestramento ed estrapolare fino a 4 milioni di token durante l'inferenza a un costo accessibile. Il nostro modello visione-linguaggio, MiniMax-VL-01, è costruito attraverso un addestramento continuo con 512 miliardi di token visione-linguaggio. Gli esperimenti su benchmark standard e interni mostrano che i nostri modelli eguagliano le prestazioni di modelli all'avanguardia come GPT-4o e Claude-3.5-Sonnet offrendo una finestra di contesto 20-32 volte più lunga. Rilasciamo pubblicamente MiniMax-01 su https://github.com/MiniMax-AI.