ChatPaper.aiChatPaper

키미 리니어: 표현력이 뛰어나고 효율적인 어텐션 아키텍처

Kimi Linear: An Expressive, Efficient Attention Architecture

October 30, 2025
저자: Kimi Team, Yu Zhang, Zongyu Lin, Xingcheng Yao, Jiaxi Hu, Fanqing Meng, Chengyin Liu, Xin Men, Songlin Yang, Zhiyuan Li, Wentao Li, Enzhe Lu, Weizhou Liu, Yanru Chen, Weixin Xu, Longhui Yu, Yejie Wang, Yu Fan, Longguang Zhong, Enming Yuan, Dehao Zhang, Yizhi Zhang, T. Y. Liu, Haiming Wang, Shengjun Fang, Weiran He, Shaowei Liu, Yiwei Li, Jianlin Su, Jiezhong Qiu, Bo Pang, Junjie Yan, Zhejun Jiang, Weixiao Huang, Bohong Yin, Jiacheng You, Chu Wei, Zhengtao Wang, Chao Hong, Yutian Chen, Guanduo Chen, Yucheng Wang, Huabin Zheng, Feng Wang, Yibo Liu, Mengnan Dong, Zheng Zhang, Siyuan Pan, Wenhao Wu, Yuhao Wu, Longyu Guan, Jiawen Tao, Guohong Fu, Xinran Xu, Yuzhi Wang, Guokun Lai, Yuxin Wu, Xinyu Zhou, Zhilin Yang, Yulun Du
cs.AI

초록

우리는 공정한 비교 하에서 단문 컨텍스트, 장문 컨텍스트, 강화학습(RL) 확장 영역 등 다양한 시나리오에서 기존 전체 어텐션(Full Attention)을 최초로 능가하는 하이브리드 선형 어텐션 아키텍처인 Kimi Linear를 소개한다. 그 핵심에는 제한된 유한 상태 RNN 메모리를 보다 효과적으로 활용할 수 있도록 더 세분화된 게이팅 메커니즘으로 Gated DeltaNet을 확장한 표현력豊富한 선형 어텐션 모듈인 Kimi Delta Attention(KDA)이 있다. 우리의 맞춤형 청크 방식 알고리즘은 특수화된 DPLR(Diagonal-Plus-Low-Rank) 전이 행렬 변형을 통해 높은 하드웨어 효율을 달성하며, 이는 일반 DPLR 공식 대비 계산량을 상당히 줄이면서도 고전적인 델타 규칙과 더 일관성을 유지한다. 우리는 KDA와 MLA(Multi-Head Latent Attention)를 계층별로 하이브리드 구성한, 활성화 매개변수 3B개와 총 매개변수 48B개를 가진 Kimi Linear 모델을 사전 학습했다. 실험 결과, 동일한 학습 레시피로 Kimi Linear는 평가된 모든 과제에서 전체 MLA를 상당한 차이로 능가하면서도 KV 캐시 사용량을 최대 75%까지 줄이고 100만 컨텍스트 길이 대비 디코딩 처리량을 최대 6배까지 달성했다. 이러한 결과는 Kimi Linear가 더 긴 입력 및 출력 길이를 포함한 과제에서도 우수한 성능과 효율성을 바탕으로 전체 어텐션 아키텍처를 대체하여 사용(Drop-in Replacement)할 수 있음을 입증한다. 추가 연구를 지원하기 위해 우리는 KDA 커널 및 vLLM 구현체를 오픈소스로 공개하고, 사전 학습 및 지시 튜닝된 모델 체크포인트를 공개한다.
English
We introduce Kimi Linear, a hybrid linear attention architecture that, for the first time, outperforms full attention under fair comparisons across various scenarios -- including short-context, long-context, and reinforcement learning (RL) scaling regimes. At its core lies Kimi Delta Attention (KDA), an expressive linear attention module that extends Gated DeltaNet with a finer-grained gating mechanism, enabling more effective use of limited finite-state RNN memory. Our bespoke chunkwise algorithm achieves high hardware efficiency through a specialized variant of the Diagonal-Plus-Low-Rank (DPLR) transition matrices, which substantially reduces computation compared to the general DPLR formulation while remaining more consistent with the classical delta rule. We pretrain a Kimi Linear model with 3B activated parameters and 48B total parameters, based on a layerwise hybrid of KDA and Multi-Head Latent Attention (MLA). Our experiments show that with an identical training recipe, Kimi Linear outperforms full MLA with a sizeable margin across all evaluated tasks, while reducing KV cache usage by up to 75% and achieving up to 6 times decoding throughput for a 1M context. These results demonstrate that Kimi Linear can be a drop-in replacement for full attention architectures with superior performance and efficiency, including tasks with longer input and output lengths. To support further research, we open-source the KDA kernel and vLLM implementations, and release the pre-trained and instruction-tuned model checkpoints.
PDF1134December 2, 2025