MiniMax-M1: Schaalbaar testtijdberekening efficiënt maken met Lightning Attention

Samenvatting

We introduceren MiniMax-M1, 's werelds eerste open-gewicht, grootschalig hybride-attentie redeneermodel. MiniMax-M1 wordt aangedreven door een hybride Mixture-of-Experts (MoE)-architectuur gecombineerd met een bliksemsnel aandachtmechanisme. Het model is ontwikkeld op basis van ons eerdere MiniMax-Text-01 model, dat in totaal 456 miljard parameters bevat, waarvan 45,9 miljard parameters per token geactiveerd worden. Het M1-model ondersteunt standaard een contextlengte van 1 miljoen tokens, 8x de contextgrootte van DeepSeek R1. Bovendien maakt het bliksemsnelle aandachtmechanisme in MiniMax-M1 een efficiënte schaalbaarheid van rekentijd tijdens tests mogelijk. Deze eigenschappen maken M1 bijzonder geschikt voor complexe taken die het verwerken van lange invoeren en uitgebreid nadenken vereisen. MiniMax-M1 is getraind met behulp van grootschalige reinforcement learning (RL) op diverse problemen, waaronder sandbox-gebaseerde, real-world software-engineeringomgevingen. Naast de inherente efficiëntievoordelen van M1 voor RL-training, stellen we CISPO voor, een nieuw RL-algoritme om de RL-efficiëntie verder te verbeteren. CISPO knipt importance sampling-gewichten in plaats van token-updates, wat beter presteert dan andere competitieve RL-varianten. De combinatie van hybride-attentie en CISPO maakt het mogelijk dat de volledige RL-training van MiniMax-M1 op 512 H800 GPU's in slechts drie weken wordt voltooid, met een huurkosten van slechts $534,700. We brengen twee versies van MiniMax-M1-modellen uit met respectievelijk 40K en 80K denkbudgetten, waarbij het 40K-model een tussenfase vertegenwoordigt van de 80K-training. Experimenten op standaard benchmarks tonen aan dat onze modellen vergelijkbaar of superieur zijn aan sterke open-gewichtmodellen zoals het originele DeepSeek-R1 en Qwen3-235B, met bijzondere sterktes in complexe software-engineering, toolgebruik en lange-context taken. We maken MiniMax-M1 publiekelijk beschikbaar op https://github.com/MiniMax-AI/MiniMax-M1.

English

We introduce MiniMax-M1, the world's first open-weight, large-scale hybrid-attention reasoning model. MiniMax-M1 is powered by a hybrid Mixture-of-Experts (MoE) architecture combined with a lightning attention mechanism. The model is developed based on our previous MiniMax-Text-01 model, which contains a total of 456 billion parameters with 45.9 billion parameters activated per token. The M1 model natively supports a context length of 1 million tokens, 8x the context size of DeepSeek R1. Furthermore, the lightning attention mechanism in MiniMax-M1 enables efficient scaling of test-time compute. These properties make M1 particularly suitable for complex tasks that require processing long inputs and thinking extensively. MiniMax-M1 is trained using large-scale reinforcement learning (RL) on diverse problems including sandbox-based, real-world software engineering environments. In addition to M1's inherent efficiency advantage for RL training, we propose CISPO, a novel RL algorithm to further enhance RL efficiency. CISPO clips importance sampling weights rather than token updates, outperforming other competitive RL variants. Combining hybrid-attention and CISPO enables MiniMax-M1's full RL training on 512 H800 GPUs to complete in only three weeks, with a rental cost of just $534,700. We release two versions of MiniMax-M1 models with 40K and 80K thinking budgets respectively, where the 40K model represents an intermediate phase of the 80K training. Experiments on standard benchmarks show that our models are comparable or superior to strong open-weight models such as the original DeepSeek-R1 and Qwen3-235B, with particular strengths in complex software engineering, tool utilization, and long-context tasks. We publicly release MiniMax-M1 at https://github.com/MiniMax-AI/MiniMax-M1.

MiniMax-M1: Schaalbaar testtijdberekening efficiënt maken met Lightning Attention

MiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning Attention

Samenvatting

Support