Kimi Linéaire : Une Architecture d'Attention Expressive et Efficace

papers.abstract

Nous présentons Kimi Linear, une architecture hybride à attention linéaire qui, pour la première fois, surpasse l'attention complète dans des comparaisons équitables couvrant divers scénarios — incluant les régimes de mise à l'échelle pour contexte court, contexte long et apprentissage par renforcement (RL). Son cœur repose sur Kimi Delta Attention (KDA), un module d'attention linéaire expressif qui étend Gated DeltaNet avec un mécanisme de gating plus fin, permettant une utilisation plus efficace de la mémoire limitée des RNN à état fini. Notre algorithme personnalisé par blocs atteint une haute efficacité matérielle grâce à une variante spécialisée des matrices de transition Diagonale-Plus-Rang-Faible (DPLR), qui réduit substantiellement le calcul par rapport à la formulation DPLR générale tout en restant plus cohérente avec la règle delta classique. Nous avons pré-entraîné un modèle Kimi Linear avec 3 milliards de paramètres activés et 48 milliards de paramètres au total, basé sur un hybride stratifié de KDA et de Multi-Head Latent Attention (MLA). Nos expériences montrent qu'avec une procédure d'entraînement identique, Kimi Linear surpasse l'MLA complet avec une marge significative sur toutes les tâches évaluées, tout en réduisant l'utilisation du cache KV jusqu'à 75 % et en atteignant un débit de décodage jusqu'à 6 fois supérieur pour un contexte de 1 million de tokens. Ces résultats démontrent que Kimi Linear peut remplacer directement les architectures à attention complète avec des performances et une efficacité supérieures, y compris pour les tâches avec des longueurs d'entrée et de sortie plus importantes. Pour soutenir la recherche future, nous ouvrons les implémentations du noyau KDA et de vLLM, et publions les points de contrôle des modèles pré-entraînés et affinés par instructions.

English

We introduce Kimi Linear, a hybrid linear attention architecture that, for the first time, outperforms full attention under fair comparisons across various scenarios -- including short-context, long-context, and reinforcement learning (RL) scaling regimes. At its core lies Kimi Delta Attention (KDA), an expressive linear attention module that extends Gated DeltaNet with a finer-grained gating mechanism, enabling more effective use of limited finite-state RNN memory. Our bespoke chunkwise algorithm achieves high hardware efficiency through a specialized variant of the Diagonal-Plus-Low-Rank (DPLR) transition matrices, which substantially reduces computation compared to the general DPLR formulation while remaining more consistent with the classical delta rule. We pretrain a Kimi Linear model with 3B activated parameters and 48B total parameters, based on a layerwise hybrid of KDA and Multi-Head Latent Attention (MLA). Our experiments show that with an identical training recipe, Kimi Linear outperforms full MLA with a sizeable margin across all evaluated tasks, while reducing KV cache usage by up to 75% and achieving up to 6 times decoding throughput for a 1M context. These results demonstrate that Kimi Linear can be a drop-in replacement for full attention architectures with superior performance and efficiency, including tasks with longer input and output lengths. To support further research, we open-source the KDA kernel and vLLM implementations, and release the pre-trained and instruction-tuned model checkpoints.

Kimi Linéaire : Une Architecture d'Attention Expressive et Efficace

Kimi Linear: An Expressive, Efficient Attention Architecture

papers.abstract

Support