Kimi Linear: Eine ausdrucksstarke und effiziente Aufmerksamkeitsarchitektur

papers.abstract

Wir stellen Kimi Linear vor, eine hybride Linear-Attention-Architektur, die erstmals unter fairen Vergleichen in verschiedenen Szenarien – einschließlich Kurzkontext-, Langkontext- und Reinforcement-Learning (RL)-Skalierungsregimen – die volle Attention übertrifft. Im Kern befindet sich Kimi Delta Attention (KDA), ein ausdrucksstarkes Linear-Attention-Modul, das Gated DeltaNet mit einem feiner granularen Gating-Mechanismus erweitert und so eine effektivere Nutzung des begrenzten RNN-Zustandsspeichers ermöglicht. Unser maßgeschneiderter Chunkwise-Algorithmus erreicht eine hohe Hardware-Effizienz durch eine spezialisierte Variante der Diagonal-Plus-Low-Rank (DPLR)-Übergangsmatrizen, die den Rechenaufwand im Vergleich zur allgemeinen DPLR-Formulierung erheblich reduziert, dabei aber konsistenter mit der klassischen Delta-Regel bleibt. Wir pretrainieren ein Kimi Linear-Modell mit 3B aktivierten Parametern und 48B Gesamtparametern, basierend auf einer schichtenweisen Hybridstruktur aus KDA und Multi-Head Latent Attention (MLA). Unsere Experimente zeigen, dass Kimi Linear bei identischem Training alle evaluierten Aufgaben mit deutlichem Vorsprung gegenüber vollständiger MLA löst, dabei den KV-Cache-Verbrauch um bis zu 75 % reduziert und einen bis zu 6-fachen Decoding-Durchsatz für einen 1M-Kontext erreicht. Diese Ergebnisse demonstrieren, dass Kimi Linear ein direkter Ersatz für volle Attention-Architekturen mit überlegener Leistung und Effizienz sein kann, auch für Aufgaben mit längeren Eingabe- und Ausgabelängen. Um die weitere Forschung zu unterstützen, stellen wir den KDA-Kernel und vLLM-Implementierungen als Open Source bereit und veröffentlichen die vortrainierten und instruction-getunten Modell-Checkpoints.

English

We introduce Kimi Linear, a hybrid linear attention architecture that, for the first time, outperforms full attention under fair comparisons across various scenarios -- including short-context, long-context, and reinforcement learning (RL) scaling regimes. At its core lies Kimi Delta Attention (KDA), an expressive linear attention module that extends Gated DeltaNet with a finer-grained gating mechanism, enabling more effective use of limited finite-state RNN memory. Our bespoke chunkwise algorithm achieves high hardware efficiency through a specialized variant of the Diagonal-Plus-Low-Rank (DPLR) transition matrices, which substantially reduces computation compared to the general DPLR formulation while remaining more consistent with the classical delta rule. We pretrain a Kimi Linear model with 3B activated parameters and 48B total parameters, based on a layerwise hybrid of KDA and Multi-Head Latent Attention (MLA). Our experiments show that with an identical training recipe, Kimi Linear outperforms full MLA with a sizeable margin across all evaluated tasks, while reducing KV cache usage by up to 75% and achieving up to 6 times decoding throughput for a 1M context. These results demonstrate that Kimi Linear can be a drop-in replacement for full attention architectures with superior performance and efficiency, including tasks with longer input and output lengths. To support further research, we open-source the KDA kernel and vLLM implementations, and release the pre-trained and instruction-tuned model checkpoints.

Kimi Linear: Eine ausdrucksstarke und effiziente Aufmerksamkeitsarchitektur

Kimi Linear: An Expressive, Efficient Attention Architecture

papers.abstract

Support