MiniMax-M1: Scalare Efficientmente il Calcolo al Momento del Test con Lightning Attention

Abstract

Presentiamo MiniMax-M1, il primo modello al mondo open-weight su larga scala con architettura ibrida di attenzione e ragionamento. MiniMax-M1 è alimentato da un'architettura ibrida Mixture-of-Experts (MoE) combinata con un meccanismo di attenzione lightning. Il modello è sviluppato basandosi sul nostro precedente modello MiniMax-Text-01, che contiene un totale di 456 miliardi di parametri, con 45,9 miliardi di parametri attivati per token. Il modello M1 supporta nativamente una lunghezza contestuale di 1 milione di token, 8 volte la dimensione contestuale di DeepSeek R1. Inoltre, il meccanismo di attenzione lightning in MiniMax-M1 consente un efficiente ridimensionamento del calcolo durante il test. Queste caratteristiche rendono M1 particolarmente adatto per compiti complessi che richiedono l'elaborazione di input lunghi e un ragionamento esteso. MiniMax-M1 è addestrato utilizzando l'apprendimento per rinforzo (RL) su larga scala su problemi diversificati, inclusi ambienti di ingegneria del software basati su sandbox e scenari reali. Oltre al vantaggio intrinseco di efficienza di M1 per l'addestramento RL, proponiamo CISPO, un nuovo algoritmo RL per migliorare ulteriormente l'efficienza dell'apprendimento per rinforzo. CISPO limita i pesi di campionamento di importanza anziché gli aggiornamenti dei token, superando altre varianti competitive di RL. La combinazione di attenzione ibrida e CISPO consente l'addestramento RL completo di MiniMax-M1 su 512 GPU H800 in sole tre settimane, con un costo di noleggio di appena $534.700. Rilasciamo due versioni dei modelli MiniMax-M1 con budget di pensiero rispettivamente di 40K e 80K, dove il modello 40K rappresenta una fase intermedia dell'addestramento 80K. Esperimenti su benchmark standard dimostrano che i nostri modelli sono comparabili o superiori a modelli open-weight di riferimento come l'originale DeepSeek-R1 e Qwen3-235B, con punti di forza particolari nell'ingegneria del software complessa, nell'utilizzo di strumenti e nei compiti a contesto lungo. Rilasciamo pubblicamente MiniMax-M1 all'indirizzo https://github.com/MiniMax-AI/MiniMax-M1.

English

We introduce MiniMax-M1, the world's first open-weight, large-scale hybrid-attention reasoning model. MiniMax-M1 is powered by a hybrid Mixture-of-Experts (MoE) architecture combined with a lightning attention mechanism. The model is developed based on our previous MiniMax-Text-01 model, which contains a total of 456 billion parameters with 45.9 billion parameters activated per token. The M1 model natively supports a context length of 1 million tokens, 8x the context size of DeepSeek R1. Furthermore, the lightning attention mechanism in MiniMax-M1 enables efficient scaling of test-time compute. These properties make M1 particularly suitable for complex tasks that require processing long inputs and thinking extensively. MiniMax-M1 is trained using large-scale reinforcement learning (RL) on diverse problems including sandbox-based, real-world software engineering environments. In addition to M1's inherent efficiency advantage for RL training, we propose CISPO, a novel RL algorithm to further enhance RL efficiency. CISPO clips importance sampling weights rather than token updates, outperforming other competitive RL variants. Combining hybrid-attention and CISPO enables MiniMax-M1's full RL training on 512 H800 GPUs to complete in only three weeks, with a rental cost of just $534,700. We release two versions of MiniMax-M1 models with 40K and 80K thinking budgets respectively, where the 40K model represents an intermediate phase of the 80K training. Experiments on standard benchmarks show that our models are comparable or superior to strong open-weight models such as the original DeepSeek-R1 and Qwen3-235B, with particular strengths in complex software engineering, tool utilization, and long-context tasks. We publicly release MiniMax-M1 at https://github.com/MiniMax-AI/MiniMax-M1.

MiniMax-M1: Scalare Efficientmente il Calcolo al Momento del Test con Lightning Attention

MiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning Attention

Abstract

Support