MiniMax-01: Schalen van Foundation Modellen met Bliksem AandachtMiniMax-01: Scaling Foundation Models with Lightning Attention
We introduceren de MiniMax-01 serie, waaronder MiniMax-Text-01 en MiniMax-VL-01, die vergelijkbaar zijn met topmodellen en tegelijkertijd superieure mogelijkheden bieden voor het verwerken van langere contexten. De kern ligt in bliksemsnelle aandacht en de efficiënte schaalbaarheid ervan. Om de rekenkracht te maximaliseren, integreren we het met een Mengeling van Experts (MoE), waardoor een model met 32 experts en in totaal 456 miljard parameters ontstaat, waarvan 45,9 miljard geactiveerd zijn voor elk token. We hebben een geoptimaliseerde parallelle strategie en zeer efficiënte technieken voor overlappende berekening-communicatie ontwikkeld voor MoE en bliksemsnelle aandacht. Deze aanpak stelt ons in staat om efficiënte training en inferentie uit te voeren op modellen met honderden miljarden parameters over contexten die miljoenen tokens beslaan. Het contextvenster van MiniMax-Text-01 kan tijdens training tot 1 miljoen tokens reiken en extrapoleren naar 4 miljoen tokens tijdens inferentie tegen een betaalbare prijs. Ons visie-taalmodel, MiniMax-VL-01, is opgebouwd door voortdurende training met 512 miljard visie-taal tokens. Experimenten op zowel standaard als interne benchmarks tonen aan dat onze modellen de prestaties van toonaangevende modellen zoals GPT-4o en Claude-3.5-Sonnet evenaren, terwijl ze een contextvenster bieden dat 20-32 keer langer is. We brengen MiniMax-01 openbaar uit op https://github.com/MiniMax-AI.