MiniMax-M1 : Optimisation efficace du calcul en phase de test avec l'attention éclair

papers.abstract

Nous présentons MiniMax-M1, le premier modèle de raisonnement à grande échelle et à poids ouvert au monde, basé sur une architecture hybride d'attention. MiniMax-M1 est alimenté par une architecture hybride de type Mixture-of-Experts (MoE) combinée à un mécanisme d'attention éclair. Le modèle est développé à partir de notre précédent modèle MiniMax-Text-01, qui contient un total de 456 milliards de paramètres, avec 45,9 milliards de paramètres activés par token. Le modèle M1 prend nativement en charge une longueur de contexte de 1 million de tokens, soit 8 fois la taille de contexte de DeepSeek R1. De plus, le mécanisme d'attention éclair de MiniMax-M1 permet une mise à l'échelle efficace des calculs lors des tests. Ces caractéristiques rendent M1 particulièrement adapté aux tâches complexes nécessitant le traitement de longues entrées et une réflexion approfondie. MiniMax-M1 est entraîné à l'aide d'un apprentissage par renforcement (RL) à grande échelle sur divers problèmes, y compris des environnements d'ingénierie logicielle basés sur des sandbox et des scénarios réels. En plus de l'avantage inhérent de M1 en termes d'efficacité pour l'entraînement RL, nous proposons CISPO, un nouvel algorithme RL pour améliorer encore l'efficacité de l'apprentissage par renforcement. CISPO limite les poids d'échantillonnage d'importance plutôt que les mises à jour des tokens, surpassant ainsi d'autres variantes concurrentes de RL. La combinaison de l'attention hybride et de CISPO permet à l'entraînement RL complet de MiniMax-M1 sur 512 GPU H800 de s'achever en seulement trois semaines, avec un coût de location de seulement 534 700 $. Nous publions deux versions des modèles MiniMax-M1 avec des budgets de réflexion de 40K et 80K respectivement, où le modèle 40K représente une phase intermédiaire de l'entraînement 80K. Les expériences sur des benchmarks standards montrent que nos modèles sont comparables ou supérieurs à des modèles à poids ouvert robustes tels que le DeepSeek-R1 original et Qwen3-235B, avec des forces particulières dans l'ingénierie logicielle complexe, l'utilisation d'outils et les tâches à contexte long. Nous rendons MiniMax-M1 public à l'adresse suivante : https://github.com/MiniMax-AI/MiniMax-M1.

English

We introduce MiniMax-M1, the world's first open-weight, large-scale hybrid-attention reasoning model. MiniMax-M1 is powered by a hybrid Mixture-of-Experts (MoE) architecture combined with a lightning attention mechanism. The model is developed based on our previous MiniMax-Text-01 model, which contains a total of 456 billion parameters with 45.9 billion parameters activated per token. The M1 model natively supports a context length of 1 million tokens, 8x the context size of DeepSeek R1. Furthermore, the lightning attention mechanism in MiniMax-M1 enables efficient scaling of test-time compute. These properties make M1 particularly suitable for complex tasks that require processing long inputs and thinking extensively. MiniMax-M1 is trained using large-scale reinforcement learning (RL) on diverse problems including sandbox-based, real-world software engineering environments. In addition to M1's inherent efficiency advantage for RL training, we propose CISPO, a novel RL algorithm to further enhance RL efficiency. CISPO clips importance sampling weights rather than token updates, outperforming other competitive RL variants. Combining hybrid-attention and CISPO enables MiniMax-M1's full RL training on 512 H800 GPUs to complete in only three weeks, with a rental cost of just $534,700. We release two versions of MiniMax-M1 models with 40K and 80K thinking budgets respectively, where the 40K model represents an intermediate phase of the 80K training. Experiments on standard benchmarks show that our models are comparable or superior to strong open-weight models such as the original DeepSeek-R1 and Qwen3-235B, with particular strengths in complex software engineering, tool utilization, and long-context tasks. We publicly release MiniMax-M1 at https://github.com/MiniMax-AI/MiniMax-M1.

MiniMax-M1 : Optimisation efficace du calcul en phase de test avec l'attention éclair

MiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning Attention

papers.abstract

Support