Kimi Linear: un'architettura di attenzione espressiva ed efficiente

Abstract

Introduciamo Kimi Linear, un'architettura ibrida di attenzione lineare che, per la prima volta, supera l'attenzione completa in confronti equi attraverso vari scenari — inclusi regimi di scaling per contesti brevi, contesti lunghi e apprendimento per rinforzo (RL). Il suo nucleo è costituito da Kimi Delta Attention (KDA), un modulo di attenzione lineare espressivo che estende il Gated DeltaNet con un meccanismo di gating più granulare, consentendo un uso più efficace della memoria limitata delle RNN a stati finiti. Il nostro algoritmo chunkwise su misura raggiunge un'elevata efficienza hardware attraverso una variante specializzata delle matrici di transizione Diagonal-Plus-Low-Rank (DPLR), che riduce sostanzialmente il calcolo rispetto alla formulazione DPLR generale, rimanendo al contempo più coerente con la classica delta rule. Addestriamo preliminarmente un modello Kimi Linear con 3 miliardi di parametri attivati e 48 miliardi di parametri totali, basato su un ibrido stratificato di KDA e Multi-Head Latent Attention (MLA). I nostri esperimenti mostrano che, con una procedura di addestramento identica, Kimi Linear supera l'MLA completo con un margine considerevole in tutti i compiti valutati, riducendo contemporaneamente l'uso della cache KV fino al 75% e raggiungendo un throughput di decodifica fino a 6 volte superiore per un contesto di 1 milione di token. Questi risultati dimostrano che Kimi Linear può essere un sostituto diretto per le architetture di attenzione completa, offrendo prestazioni e efficienza superiori, anche in compiti con lunghezze di input e output maggiori. Per supportare ulteriori ricerche, rendiamo open-source le implementazioni del kernel KDA e di vLLM, e rilasciamo i checkpoint del modello pre-addestrato e ottimizzato per istruzioni.

English

We introduce Kimi Linear, a hybrid linear attention architecture that, for the first time, outperforms full attention under fair comparisons across various scenarios -- including short-context, long-context, and reinforcement learning (RL) scaling regimes. At its core lies Kimi Delta Attention (KDA), an expressive linear attention module that extends Gated DeltaNet with a finer-grained gating mechanism, enabling more effective use of limited finite-state RNN memory. Our bespoke chunkwise algorithm achieves high hardware efficiency through a specialized variant of the Diagonal-Plus-Low-Rank (DPLR) transition matrices, which substantially reduces computation compared to the general DPLR formulation while remaining more consistent with the classical delta rule. We pretrain a Kimi Linear model with 3B activated parameters and 48B total parameters, based on a layerwise hybrid of KDA and Multi-Head Latent Attention (MLA). Our experiments show that with an identical training recipe, Kimi Linear outperforms full MLA with a sizeable margin across all evaluated tasks, while reducing KV cache usage by up to 75% and achieving up to 6 times decoding throughput for a 1M context. These results demonstrate that Kimi Linear can be a drop-in replacement for full attention architectures with superior performance and efficiency, including tasks with longer input and output lengths. To support further research, we open-source the KDA kernel and vLLM implementations, and release the pre-trained and instruction-tuned model checkpoints.

Kimi Linear: un'architettura di attenzione espressiva ed efficiente

Kimi Linear: An Expressive, Efficient Attention Architecture

Abstract

Support