La Atención Lineal Sin Errores es un Regalo Gratuito: Solución Exacta a partir de Dinámicas en Tiempo Continuo
Error-Free Linear Attention is a Free Lunch: Exact Solution from Continuous-Time Dynamics
December 14, 2025
Autores: Jingdi Lei, Di Zhang, Soujanya Poria
cs.AI
Resumen
La atención de tiempo lineal y los Modelos de Espacio de Estados (SSM) prometen resolver el cuello de botella del coste cuadrático en los modelos de lenguaje de contexto largo que emplean atención softmax. Presentamos Error-Free Linear Attention (EFLA), una formulación numéricamente estable, completamente paralelizable y generalizada de la regla delta. Específicamente, formulamos la actualización del aprendizaje en línea como un sistema dinámico en tiempo continuo y demostramos que su solución exacta no solo es alcanzable, sino también computable en tiempo lineal con paralelismo total. Al aprovechar la estructura de rango 1 de la matriz de dinámicas, derivamos directamente la solución exacta de forma cerrada que corresponde efectivamente al método de Runge-Kutta de orden infinito. Este mecanismo de atención está teóricamente libre de acumulación de errores, capturando perfectamente la dinámica continua mientras preserva la complejidad de tiempo lineal. A través de un extenso conjunto de experimentos, demostramos que EFLA permite un rendimiento robusto en entornos ruidosos, logrando una menor perplejidad en el modelado del lenguaje y un rendimiento superior en benchmarks posteriores en comparación con DeltaNet, sin introducir parámetros adicionales. Nuestro trabajo proporciona una nueva base teórica para construir modelos de atención de tiempo lineal escalables y de alta fidelidad.
English
Linear-time attention and State Space Models (SSMs) promise to solve the quadratic cost bottleneck in long-context language models employing softmax attention. We introduce Error-Free Linear Attention (EFLA), a numerically stable, fully parallelism and generalized formulation of the delta rule. Specifically, we formulate the online learning update as a continuous-time dynamical system and prove that its exact solution is not only attainable but also computable in linear time with full parallelism. By leveraging the rank-1 structure of the dynamics matrix, we directly derive the exact closed-form solution effectively corresponding to the infinite-order Runge-Kutta method. This attention mechanism is theoretically free from error accumulation, perfectly capturing the continuous dynamics while preserving the linear-time complexity. Through an extensive suite of experiments, we show that EFLA enables robust performance in noisy environments, achieving lower language modeling perplexity and superior downstream benchmark performance than DeltaNet without introducing additional parameters. Our work provides a new theoretical foundation for building high-fidelity, scalable linear-time attention models.