ChatPaper.aiChatPaper

Kimi Linear: Eine ausdrucksstarke und effiziente Aufmerksamkeitsarchitektur

Kimi Linear: An Expressive, Efficient Attention Architecture

October 30, 2025
papers.authors: Kimi Team, Yu Zhang, Zongyu Lin, Xingcheng Yao, Jiaxi Hu, Fanqing Meng, Chengyin Liu, Xin Men, Songlin Yang, Zhiyuan Li, Wentao Li, Enzhe Lu, Weizhou Liu, Yanru Chen, Weixin Xu, Longhui Yu, Yejie Wang, Yu Fan, Longguang Zhong, Enming Yuan, Dehao Zhang, Yizhi Zhang, T. Y. Liu, Haiming Wang, Shengjun Fang, Weiran He, Shaowei Liu, Yiwei Li, Jianlin Su, Jiezhong Qiu, Bo Pang, Junjie Yan, Zhejun Jiang, Weixiao Huang, Bohong Yin, Jiacheng You, Chu Wei, Zhengtao Wang, Chao Hong, Yutian Chen, Guanduo Chen, Yucheng Wang, Huabin Zheng, Feng Wang, Yibo Liu, Mengnan Dong, Zheng Zhang, Siyuan Pan, Wenhao Wu, Yuhao Wu, Longyu Guan, Jiawen Tao, Guohong Fu, Xinran Xu, Yuzhi Wang, Guokun Lai, Yuxin Wu, Xinyu Zhou, Zhilin Yang, Yulun Du
cs.AI

papers.abstract

Wir stellen Kimi Linear vor, eine hybride Linear-Attention-Architektur, die erstmals unter fairen Vergleichen in verschiedenen Szenarien – einschließlich Kurzkontext-, Langkontext- und Reinforcement-Learning (RL)-Skalierungsregimen – die volle Attention übertrifft. Im Kern befindet sich Kimi Delta Attention (KDA), ein ausdrucksstarkes Linear-Attention-Modul, das Gated DeltaNet mit einem feiner granularen Gating-Mechanismus erweitert und so eine effektivere Nutzung des begrenzten RNN-Zustandsspeichers ermöglicht. Unser maßgeschneiderter Chunkwise-Algorithmus erreicht eine hohe Hardware-Effizienz durch eine spezialisierte Variante der Diagonal-Plus-Low-Rank (DPLR)-Übergangsmatrizen, die den Rechenaufwand im Vergleich zur allgemeinen DPLR-Formulierung erheblich reduziert, dabei aber konsistenter mit der klassischen Delta-Regel bleibt. Wir pretrainieren ein Kimi Linear-Modell mit 3B aktivierten Parametern und 48B Gesamtparametern, basierend auf einer schichtenweisen Hybridstruktur aus KDA und Multi-Head Latent Attention (MLA). Unsere Experimente zeigen, dass Kimi Linear bei identischem Training alle evaluierten Aufgaben mit deutlichem Vorsprung gegenüber vollständiger MLA löst, dabei den KV-Cache-Verbrauch um bis zu 75 % reduziert und einen bis zu 6-fachen Decoding-Durchsatz für einen 1M-Kontext erreicht. Diese Ergebnisse demonstrieren, dass Kimi Linear ein direkter Ersatz für volle Attention-Architekturen mit überlegener Leistung und Effizienz sein kann, auch für Aufgaben mit längeren Eingabe- und Ausgabelängen. Um die weitere Forschung zu unterstützen, stellen wir den KDA-Kernel und vLLM-Implementierungen als Open Source bereit und veröffentlichen die vortrainierten und instruction-getunten Modell-Checkpoints.
English
We introduce Kimi Linear, a hybrid linear attention architecture that, for the first time, outperforms full attention under fair comparisons across various scenarios -- including short-context, long-context, and reinforcement learning (RL) scaling regimes. At its core lies Kimi Delta Attention (KDA), an expressive linear attention module that extends Gated DeltaNet with a finer-grained gating mechanism, enabling more effective use of limited finite-state RNN memory. Our bespoke chunkwise algorithm achieves high hardware efficiency through a specialized variant of the Diagonal-Plus-Low-Rank (DPLR) transition matrices, which substantially reduces computation compared to the general DPLR formulation while remaining more consistent with the classical delta rule. We pretrain a Kimi Linear model with 3B activated parameters and 48B total parameters, based on a layerwise hybrid of KDA and Multi-Head Latent Attention (MLA). Our experiments show that with an identical training recipe, Kimi Linear outperforms full MLA with a sizeable margin across all evaluated tasks, while reducing KV cache usage by up to 75% and achieving up to 6 times decoding throughput for a 1M context. These results demonstrate that Kimi Linear can be a drop-in replacement for full attention architectures with superior performance and efficiency, including tasks with longer input and output lengths. To support further research, we open-source the KDA kernel and vLLM implementations, and release the pre-trained and instruction-tuned model checkpoints.
PDF1134December 2, 2025