Kimi Linear: Una Arquitectura de Atención Expresiva y Eficiente

Resumen

Presentamos Kimi Linear, una arquitectura híbrida de atención lineal que, por primera vez, supera a la atención completa en comparaciones equitativas en diversos escenarios, incluyendo regímenes de escalado de contexto corto, contexto largo y aprendizaje por refuerzo (RL). En su núcleo se encuentra Kimi Delta Attention (KDA), un módulo de atención lineal expresivo que extiende Gated DeltaNet con un mecanismo de compuerta más granular, permitiendo un uso más efectivo de la memoria limitada de RNN de estado finito. Nuestro algoritmo personalizado por fragmentos (chunkwise) logra una alta eficiencia hardware mediante una variante especializada de las matrices de transición Diagonal-Plus-Low-Rank (DPLR), lo que reduce sustancialmente el cómputo en comparación con la formulación DPLR general, manteniéndose más consistente con la regla delta clásica. Preentrenamos un modelo Kimi Linear con 3B parámetros activados y 48B parámetros totales, basado en una combinación por capas de KDA y Multi-Head Latent Attention (MLA). Nuestros experimentos muestran que, con una receta de entrenamiento idéntica, Kimi Linear supera a MLA completo por un margen considerable en todas las tareas evaluadas, mientras reduce el uso de la caché KV hasta en un 75% y logra un rendimiento de decodificación hasta 6 veces mayor para un contexto de 1M. Estos resultados demuestran que Kimi Linear puede ser un reemplazo directo (drop-in) para arquitecturas de atención completa con un rendimiento y eficiencia superiores, incluyendo tareas con longitudes de entrada y salida más largas. Para apoyar futuras investigaciones, hacemos de código abierto el núcleo KDA y las implementaciones vLLM, y publicamos los puntos de control del modelo preentrenado y ajustado por instrucciones.

English

We introduce Kimi Linear, a hybrid linear attention architecture that, for the first time, outperforms full attention under fair comparisons across various scenarios -- including short-context, long-context, and reinforcement learning (RL) scaling regimes. At its core lies Kimi Delta Attention (KDA), an expressive linear attention module that extends Gated DeltaNet with a finer-grained gating mechanism, enabling more effective use of limited finite-state RNN memory. Our bespoke chunkwise algorithm achieves high hardware efficiency through a specialized variant of the Diagonal-Plus-Low-Rank (DPLR) transition matrices, which substantially reduces computation compared to the general DPLR formulation while remaining more consistent with the classical delta rule. We pretrain a Kimi Linear model with 3B activated parameters and 48B total parameters, based on a layerwise hybrid of KDA and Multi-Head Latent Attention (MLA). Our experiments show that with an identical training recipe, Kimi Linear outperforms full MLA with a sizeable margin across all evaluated tasks, while reducing KV cache usage by up to 75% and achieving up to 6 times decoding throughput for a 1M context. These results demonstrate that Kimi Linear can be a drop-in replacement for full attention architectures with superior performance and efficiency, including tasks with longer input and output lengths. To support further research, we open-source the KDA kernel and vLLM implementations, and release the pre-trained and instruction-tuned model checkpoints.