MiniMax-M1: Escalonamento Eficiente de Computação em Tempo de Teste com Atenção Relâmpago

Resumo

Apresentamos o MiniMax-M1, o primeiro modelo de raciocínio em larga escala com atenção híbrida e pesos abertos do mundo. O MiniMax-M1 é impulsionado por uma arquitetura híbrida de Mixture-of-Experts (MoE) combinada com um mecanismo de atenção relâmpago. O modelo foi desenvolvido com base em nosso modelo anterior, o MiniMax-Text-01, que contém um total de 456 bilhões de parâmetros, com 45,9 bilhões de parâmetros ativados por token. O modelo M1 suporta nativamente um comprimento de contexto de 1 milhão de tokens, 8 vezes o tamanho do contexto do DeepSeek R1. Além disso, o mecanismo de atenção relâmpago no MiniMax-M1 permite uma escalabilidade eficiente do cálculo em tempo de teste. Essas propriedades tornam o M1 particularmente adequado para tarefas complexas que exigem o processamento de entradas longas e um raciocínio extensivo. O MiniMax-M1 foi treinado usando aprendizado por reforço (RL) em larga escala em diversos problemas, incluindo ambientes de engenharia de software baseados em sandbox e do mundo real. Além da vantagem de eficiência inerente do M1 para o treinamento de RL, propomos o CISPO, um novo algoritmo de RL para aprimorar ainda mais a eficiência do RL. O CISPO recorta os pesos de amostragem de importância em vez de atualizações de tokens, superando outras variantes competitivas de RL. A combinação de atenção híbrida e CISPO permite que o treinamento completo de RL do MiniMax-M1 em 512 GPUs H800 seja concluído em apenas três semanas, com um custo de aluguel de apenas $534.700. Lançamos duas versões dos modelos MiniMax-M1 com orçamentos de raciocínio de 40K e 80K, respectivamente, onde o modelo de 40K representa uma fase intermediária do treinamento de 80K. Experimentos em benchmarks padrão mostram que nossos modelos são comparáveis ou superiores a modelos de pesos abertos robustos, como o DeepSeek-R1 original e o Qwen3-235B, com destaque em engenharia de software complexa, utilização de ferramentas e tarefas de contexto longo. Disponibilizamos publicamente o MiniMax-M1 em https://github.com/MiniMax-AI/MiniMax-M1.

English

We introduce MiniMax-M1, the world's first open-weight, large-scale hybrid-attention reasoning model. MiniMax-M1 is powered by a hybrid Mixture-of-Experts (MoE) architecture combined with a lightning attention mechanism. The model is developed based on our previous MiniMax-Text-01 model, which contains a total of 456 billion parameters with 45.9 billion parameters activated per token. The M1 model natively supports a context length of 1 million tokens, 8x the context size of DeepSeek R1. Furthermore, the lightning attention mechanism in MiniMax-M1 enables efficient scaling of test-time compute. These properties make M1 particularly suitable for complex tasks that require processing long inputs and thinking extensively. MiniMax-M1 is trained using large-scale reinforcement learning (RL) on diverse problems including sandbox-based, real-world software engineering environments. In addition to M1's inherent efficiency advantage for RL training, we propose CISPO, a novel RL algorithm to further enhance RL efficiency. CISPO clips importance sampling weights rather than token updates, outperforming other competitive RL variants. Combining hybrid-attention and CISPO enables MiniMax-M1's full RL training on 512 H800 GPUs to complete in only three weeks, with a rental cost of just $534,700. We release two versions of MiniMax-M1 models with 40K and 80K thinking budgets respectively, where the 40K model represents an intermediate phase of the 80K training. Experiments on standard benchmarks show that our models are comparable or superior to strong open-weight models such as the original DeepSeek-R1 and Qwen3-235B, with particular strengths in complex software engineering, tool utilization, and long-context tasks. We publicly release MiniMax-M1 at https://github.com/MiniMax-AI/MiniMax-M1.

MiniMax-M1: Escalonamento Eficiente de Computação em Tempo de Teste com Atenção Relâmpago

MiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning Attention

Resumo

Support