Kimi Linear: Een Expressieve en Efficiënte Attention-Architectuur

Samenvatting

Wij introduceren Kimi Linear, een hybride lineaire aandacht-architectuur die voor het eerst superieure prestaties levert vergeleken met volledige aandacht onder eerlijke vergelijkingen in uiteenlopende scenario's – waaronder kort-context, lang-context en reinforcement learning (RL) schaalregimes. De kern wordt gevormd door Kimi Delta Attention (KDA), een expressieve lineaire aandachtmodule die Gated DeltaNet uitbreidt met een fijnmaziger gatingmechanisme, waardoor het beperkte geheugen van eindige-toestand RNN's effectiever kan worden benut. Ons op maat gemaakte chunkwise-algoritme bereikt een hoge hardware-efficiëntie door een gespecialiseerde variant van de Diagonaal-Plus-Lage-Rang (DPLR) overgangsmatrices, die de rekenkracht aanzienlijk vermindert vergeleken met de algemene DPLR-formulering, terwijl het consistenter blijft met de klassieke delta-regel. Wij pretrainen een Kimi Linear-model met 3B geactiveerde parameters en 48B totale parameters, gebaseerd op een laagsgewijze hybride van KDA en Multi-Head Latent Attention (MLA). Onze experimenten tonen aan dat Kimi Linear, met een identiek trainingsrecept, volledige MLA met een aanzienlijke marge overtreft op alle geëvalueerde taken, terwijl het KV-cachegebruik tot 75% reduceert en een decoderingdoorvoer tot 6 keer hoger bereikt voor een context van 1M. Deze resultaten demonstreren dat Kimi Linear een directe vervanger kan zijn voor architecturen met volledige aandacht, met superieure prestaties en efficiëntie, inclusief taken met langere invoer- en uitvoerlengtes. Om verder onderzoek te ondersteunen, maken wij de KDA-kernel en vLLM-implementaties open source, en geven wij de voorgetrainde en instruction-tuned modelcheckpoints vrij.

English

We introduce Kimi Linear, a hybrid linear attention architecture that, for the first time, outperforms full attention under fair comparisons across various scenarios -- including short-context, long-context, and reinforcement learning (RL) scaling regimes. At its core lies Kimi Delta Attention (KDA), an expressive linear attention module that extends Gated DeltaNet with a finer-grained gating mechanism, enabling more effective use of limited finite-state RNN memory. Our bespoke chunkwise algorithm achieves high hardware efficiency through a specialized variant of the Diagonal-Plus-Low-Rank (DPLR) transition matrices, which substantially reduces computation compared to the general DPLR formulation while remaining more consistent with the classical delta rule. We pretrain a Kimi Linear model with 3B activated parameters and 48B total parameters, based on a layerwise hybrid of KDA and Multi-Head Latent Attention (MLA). Our experiments show that with an identical training recipe, Kimi Linear outperforms full MLA with a sizeable margin across all evaluated tasks, while reducing KV cache usage by up to 75% and achieving up to 6 times decoding throughput for a 1M context. These results demonstrate that Kimi Linear can be a drop-in replacement for full attention architectures with superior performance and efficiency, including tasks with longer input and output lengths. To support further research, we open-source the KDA kernel and vLLM implementations, and release the pre-trained and instruction-tuned model checkpoints.

Kimi Linear: Een Expressieve en Efficiënte Attention-Architectuur

Kimi Linear: An Expressive, Efficient Attention Architecture

Samenvatting

Support