Attention éparse MiniMax

Résumé

La capacité de contexte ultra-long devient indispensable pour les LLMs de pointe : les workflows agentiques, le raisonnement de code à l'échelle d'un dépôt et la mémoire persistante exigent tous que le modèle assure une attention conjointe sur des centaines de milliers à des millions de tokens, mais le coût quadratique de l'attention softmax rend cette approche irréalisable à l'échelle du déploiement. Nous présentons MiniMax Sparse Attention (MSA), une attention creuse par blocs construite sur l'Attention par Requêtes Groupées (GQA). Une Branche d'Index légère score les blocs clé-valeur et sélectionne indépendamment un sous-ensemble Top-k pour chaque groupe GQA, permettant une récupération creuse propre à chaque groupe tout en maintenant une exécution efficace au niveau du bloc ; la Branche Principale effectue ensuite une attention creuse exacte par blocs uniquement sur les blocs sélectionnés. Conçue autour d'un principe de simplicité et d'évolutivité, MSA est délibérément simplifiée, ce qui la rend directement déployable sur un large éventail de GPU. Pour traduire la parcimonie en gains de vitesse pratiques, nous co-concevons MSA avec un chemin d'exécution GPU utilisant une sélection Top-k sans exponentielle et une attention creuse KV-outer afin d'améliorer l'utilisation des cœurs tensoriels sous un accès granulaire par blocs. Sur un modèle de 109 milliards de paramètres avec apprentissage multimodal natif, MSA offre des performances équivalentes à GQA tout en réduisant le calcul d'attention par token de 28,4x pour un contexte de 1M. Associée à notre noyau co-conçu, MSA atteint des accélérations en temps réel de 14,2x pour le préremplissage et de 7,6x pour le décodage sur H800. Notre noyau d'inférence est disponible à l'adresse : https://github.com/MiniMax-AI/MSA. Un modèle multimodal natif de qualité production, propulsé par MSA, a été publié publiquement à l'adresse : https://huggingface.co/MiniMaxAI/MiniMax-M3.

English

Ultra-long-context capability is becoming indispensable for frontier LLMs: agentic workflows, repository-scale code reasoning, and persistent memory all require the model to jointly attend over hundreds of thousands to millions of tokens, yet the quadratic cost of softmax attention makes this untenable at deployment scale. We introduce MiniMax Sparse Attention (MSA), a blockwise sparse attention built upon Grouped Query Attention (GQA). A lightweight Index Branch scores key-value blocks and independently selects a Top-k subset for each GQA group, enabling group-specific sparse retrieval while maintaining efficient block-level execution; the Main Branch then performs exact block-sparse attention over only the selected blocks. Designed around a principle of simplicity and scalability, MSA is deliberately streamlined, making it straightforward to deploy efficiently across a broad range of GPUs. To translate sparsity into practical speedups, we co-design MSA with a GPU execution path that uses exp-free Top-k selection and KV-outer sparse attention to improve tensor-core utilization under block-granular access. On a 109B-parameter model with native multimodal training, MSA performs on par with GQA while reducing per-token attention compute by 28.4x at 1M context. Paired with our co-designed kernel, MSA achieves 14.2x prefill and 7.6x decoding wall-clock speedups on H800. Our inference kernel is available at: https://github.com/MiniMax-AI/MSA. A production-grade natively multimodal model powered by MSA has been publicly released at: https://huggingface.co/MiniMaxAI/MiniMax-M3.