ChatPaper.aiChatPaper

Kimi Linear: 表現力豊かで効率的なアテンションアーキテクチャ

Kimi Linear: An Expressive, Efficient Attention Architecture

October 30, 2025
著者: Kimi Team, Yu Zhang, Zongyu Lin, Xingcheng Yao, Jiaxi Hu, Fanqing Meng, Chengyin Liu, Xin Men, Songlin Yang, Zhiyuan Li, Wentao Li, Enzhe Lu, Weizhou Liu, Yanru Chen, Weixin Xu, Longhui Yu, Yejie Wang, Yu Fan, Longguang Zhong, Enming Yuan, Dehao Zhang, Yizhi Zhang, T. Y. Liu, Haiming Wang, Shengjun Fang, Weiran He, Shaowei Liu, Yiwei Li, Jianlin Su, Jiezhong Qiu, Bo Pang, Junjie Yan, Zhejun Jiang, Weixiao Huang, Bohong Yin, Jiacheng You, Chu Wei, Zhengtao Wang, Chao Hong, Yutian Chen, Guanduo Chen, Yucheng Wang, Huabin Zheng, Feng Wang, Yibo Liu, Mengnan Dong, Zheng Zhang, Siyuan Pan, Wenhao Wu, Yuhao Wu, Longyu Guan, Jiawen Tao, Guohong Fu, Xinran Xu, Yuzhi Wang, Guokun Lai, Yuxin Wu, Xinyu Zhou, Zhilin Yang, Yulun Du
cs.AI

要旨

我々は、ハイブリッド線形アテンションアーキテクチャ「Kimi Linear」を提案する。本アーキテクチャは、短コンテキスト・長コンテキスト・強化学習(RL)のスケーリング体制など様々なシナリオにおける公平な比較において、初めて完全アテンションを性能で上回る成果を達成した。その中核には、Kimi Delta Attention(KDA)と呼ばれる表現力豊かな線形アテンションモジュールが位置する。KDAはGated DeltaNetを拡張し、より細粒度なゲーティング機構を備えることで、限られた有限状態RNNメモリをより効果的に活用する。また、我々が独自に設計したチャンク単位のアルゴリズムは、対角プラス低ランク(DPLR)遷移行列の特殊化された変種を採用し、一般的なDPLR定式化と比較して計算量を大幅に削減しつつ、古典的なデルタ則との整合性を高め、高いハードウェア効率を実現している。 我々は、KDAとMulti-Head Latent Attention(MLA)を層ごとにハイブリッド化した、活性化パラメータ3B・総パラメータ48B規模のKimi Linearモデルを事前学習した。実験結果によれば、同一の訓練レシピを用いた場合、Kimi Linearは評価対象の全タスクにおいて完全なMLAを大幅に上回る性能を示し、KVキャッシュ使用量を最大75%削減、さらに100万トークンのコンテキスト長において最大6倍のデコードスループットを達成した。これらの結果は、Kimi Linearが、より長い入出力長を要するタスクを含め、性能と効率の両面で優れ、完全アテンションアーキテクチャの代替としてそのまま利用可能であることを実証している。 今後の研究発展を支援するため、我々はKDAカーネルおよびvLLM実装をオープンソースとして公開し、事前学習済み及び指示チューニング済みのモデルチェックポイントをリリースする。
English
We introduce Kimi Linear, a hybrid linear attention architecture that, for the first time, outperforms full attention under fair comparisons across various scenarios -- including short-context, long-context, and reinforcement learning (RL) scaling regimes. At its core lies Kimi Delta Attention (KDA), an expressive linear attention module that extends Gated DeltaNet with a finer-grained gating mechanism, enabling more effective use of limited finite-state RNN memory. Our bespoke chunkwise algorithm achieves high hardware efficiency through a specialized variant of the Diagonal-Plus-Low-Rank (DPLR) transition matrices, which substantially reduces computation compared to the general DPLR formulation while remaining more consistent with the classical delta rule. We pretrain a Kimi Linear model with 3B activated parameters and 48B total parameters, based on a layerwise hybrid of KDA and Multi-Head Latent Attention (MLA). Our experiments show that with an identical training recipe, Kimi Linear outperforms full MLA with a sizeable margin across all evaluated tasks, while reducing KV cache usage by up to 75% and achieving up to 6 times decoding throughput for a 1M context. These results demonstrate that Kimi Linear can be a drop-in replacement for full attention architectures with superior performance and efficiency, including tasks with longer input and output lengths. To support further research, we open-source the KDA kernel and vLLM implementations, and release the pre-trained and instruction-tuned model checkpoints.
PDF1134December 2, 2025