MiniMax-M1: Skalierung der Testzeit-Berechnung effizient mit Lightning Attention

Zusammenfassung

Wir stellen MiniMax-M1 vor, das weltweit erste Open-Weight-Modell mit großem Umfang und einer hybriden Aufmerksamkeitsarchitektur. MiniMax-M1 wird durch eine hybride Mixture-of-Experts (MoE)-Architektur in Kombination mit einem Lightning-Attention-Mechanismus angetrieben. Das Modell basiert auf unserem vorherigen MiniMax-Text-01-Modell, das insgesamt 456 Milliarden Parameter umfasst, wobei 45,9 Milliarden Parameter pro Token aktiviert sind. Das M1-Modell unterstützt nativ eine Kontextlänge von 1 Million Tokens, das 8-fache der Kontextgröße von DeepSeek R1. Darüber hinaus ermöglicht der Lightning-Attention-Mechanismus in MiniMax-M1 eine effiziente Skalierung der Rechenleistung zur Testzeit. Diese Eigenschaften machen M1 besonders geeignet für komplexe Aufgaben, die die Verarbeitung langer Eingaben und umfangreiches Denken erfordern. MiniMax-M1 wird mit groß angelegtem Reinforcement Learning (RL) auf vielfältigen Problemen trainiert, einschließlich sandbox-basierter, realer Softwareentwicklungsumgebungen. Neben dem inhärenten Effizienzvorteil von M1 für das RL-Training schlagen wir CISPO vor, einen neuartigen RL-Algorithmus, der die RL-Effizienz weiter verbessert. CISPO beschränkt die Gewichtung der Importance Sampling anstelle von Token-Updates und übertrifft dabei andere wettbewerbsfähige RL-Varianten. Die Kombination aus hybrider Aufmerksamkeit und CISPO ermöglicht es, das vollständige RL-Training von MiniMax-M1 auf 512 H800-GPUs in nur drei Wochen abzuschließen, mit Mietkosten von lediglich 534.700 US-Dollar. Wir veröffentlichen zwei Versionen der MiniMax-M1-Modelle mit 40K bzw. 80K Denkbudgets, wobei das 40K-Modell eine Zwischenphase des 80K-Trainings darstellt. Experimente auf Standard-Benchmarks zeigen, dass unsere Modelle vergleichbar oder überlegen zu starken Open-Weight-Modellen wie dem ursprünglichen DeepSeek-R1 und Qwen3-235B sind, mit besonderen Stärken in komplexer Softwareentwicklung, Werkzeugnutzung und langen Kontextaufgaben. Wir veröffentlichen MiniMax-M1 öffentlich unter https://github.com/MiniMax-AI/MiniMax-M1.

English

We introduce MiniMax-M1, the world's first open-weight, large-scale hybrid-attention reasoning model. MiniMax-M1 is powered by a hybrid Mixture-of-Experts (MoE) architecture combined with a lightning attention mechanism. The model is developed based on our previous MiniMax-Text-01 model, which contains a total of 456 billion parameters with 45.9 billion parameters activated per token. The M1 model natively supports a context length of 1 million tokens, 8x the context size of DeepSeek R1. Furthermore, the lightning attention mechanism in MiniMax-M1 enables efficient scaling of test-time compute. These properties make M1 particularly suitable for complex tasks that require processing long inputs and thinking extensively. MiniMax-M1 is trained using large-scale reinforcement learning (RL) on diverse problems including sandbox-based, real-world software engineering environments. In addition to M1's inherent efficiency advantage for RL training, we propose CISPO, a novel RL algorithm to further enhance RL efficiency. CISPO clips importance sampling weights rather than token updates, outperforming other competitive RL variants. Combining hybrid-attention and CISPO enables MiniMax-M1's full RL training on 512 H800 GPUs to complete in only three weeks, with a rental cost of just $534,700. We release two versions of MiniMax-M1 models with 40K and 80K thinking budgets respectively, where the 40K model represents an intermediate phase of the 80K training. Experiments on standard benchmarks show that our models are comparable or superior to strong open-weight models such as the original DeepSeek-R1 and Qwen3-235B, with particular strengths in complex software engineering, tool utilization, and long-context tasks. We publicly release MiniMax-M1 at https://github.com/MiniMax-AI/MiniMax-M1.