Kimi Linear: Экспрессивная и эффективная архитектура механизма внимания

Аннотация

Мы представляем Kimi Linear — гибридную архитектуру линейного внимания, которая впервые превосходит полное внимание при честных сравнениях в различных сценариях, включая режимы масштабирования для коротких контекстов, длинных контекстов и обучения с подкреплением (RL). В её основе лежит Kimi Delta Attention (KDA) — выразительный модуль линейного внимания, расширяющий Gated DeltaNet за счёт более детализированного механизма затворов, что позволяет эффективнее использовать ограниченную память рекуррентных нейронных сетей с конечным состоянием. Наш специализированный чанковый алгоритм обеспечивает высокую аппаратную эффективность благодаря специальному варианту диагонально-низкоранговых (DPLR) переходных матриц, который значительно сокращает вычисления по сравнению с общей DPLR-формулировкой, оставаясь при этом более согласованным с классическим дельта-правилом. Мы провели предварительное обучение модели Kimi Linear с 3 млрд активированных параметров и 48 млрд общих параметров на основе послойного гибрида KDA и Multi-Head Latent Attention (MLA). Наши эксперименты показывают, что при идентичном процессе обучения Kimi Linear превосходит полную MLA с существенным отрывом по всем оцениваемым задачам, одновременно сокращая использование KV-кэша до 75% и обеспечивая до 6-кратную пропускную способность при декодировании для контекста в 1 млн токенов. Эти результаты демонстрируют, что Kimi Linear может быть прямой заменой архитектур с полным вниманием, обеспечивая превосходную производительность и эффективность, в том числе для задач с большими длинами ввода и вывода. Для поддержки дальнейших исследований мы открываем исходный код реализации ядра KDA и vLLM, а также публикуем чекпоинты предобученной и инструктивно-настроенной модели.

English

We introduce Kimi Linear, a hybrid linear attention architecture that, for the first time, outperforms full attention under fair comparisons across various scenarios -- including short-context, long-context, and reinforcement learning (RL) scaling regimes. At its core lies Kimi Delta Attention (KDA), an expressive linear attention module that extends Gated DeltaNet with a finer-grained gating mechanism, enabling more effective use of limited finite-state RNN memory. Our bespoke chunkwise algorithm achieves high hardware efficiency through a specialized variant of the Diagonal-Plus-Low-Rank (DPLR) transition matrices, which substantially reduces computation compared to the general DPLR formulation while remaining more consistent with the classical delta rule. We pretrain a Kimi Linear model with 3B activated parameters and 48B total parameters, based on a layerwise hybrid of KDA and Multi-Head Latent Attention (MLA). Our experiments show that with an identical training recipe, Kimi Linear outperforms full MLA with a sizeable margin across all evaluated tasks, while reducing KV cache usage by up to 75% and achieving up to 6 times decoding throughput for a 1M context. These results demonstrate that Kimi Linear can be a drop-in replacement for full attention architectures with superior performance and efficiency, including tasks with longer input and output lengths. To support further research, we open-source the KDA kernel and vLLM implementations, and release the pre-trained and instruction-tuned model checkpoints.

Kimi Linear: Экспрессивная и эффективная архитектура механизма внимания

Kimi Linear: An Expressive, Efficient Attention Architecture

Аннотация

Support