Fehlerfreie lineare Aufmerksamkeit ist ein kostenloses Mittagessen: Exakte Lösung aus kontinuierlichen Zeitdynamiken
Error-Free Linear Attention is a Free Lunch: Exact Solution from Continuous-Time Dynamics
December 14, 2025
papers.authors: Jingdi Lei, Di Zhang, Soujanya Poria
cs.AI
papers.abstract
Lineare Aufmerksamkeit und State Space Models (SSMs) versprechen, den Engpass der quadratischen Kosten in Sprachmodellen mit langem Kontext, die Softmax-Aufmerksamkeit verwenden, zu lösen. Wir stellen Error-Free Linear Attention (EFLA) vor, eine numerisch stabile, vollständig parallelisierbare und verallgemeinerte Formulierung der Delta-Regel. Konkret formulieren wir das Online-Lern-Update als ein dynamisches System in kontinuierlicher Zeit und beweisen, dass dessen exakte Lösung nicht nur erreichbar, sondern auch in linearer Zeit mit vollständiger Parallelisierbarkeit berechenbar ist. Durch Ausnutzung der Rang-1-Struktur der Dynamikmatrix leiten wir direkt die exakte geschlossene Lösung ab, die effektiv der Runge-Kutta-Methode unendlicher Ordnung entspricht. Dieser Aufmerksamkeitsmechanismus ist theoretisch frei von Fehlerakkumulation, erfasst die kontinuierliche Dynamik perfekt und bewahrt dabei die lineare Zeitkomplexität. Mittels einer umfangreichen Reihe von Experimenten zeigen wir, dass EFLA eine robuste Leistung in rauschbehafteten Umgebungen ermöglicht und dabei eine geringere Perplexität bei der Sprachmodellierung sowie eine überlegene Leistung in Downstream-Benchmarks im Vergleich zu DeltaNet erreicht, ohne zusätzliche Parameter einzuführen. Unsere Arbeit legt eine neue theoretische Grundlage für den Aufbau hochpräziser, skalierbarer Linear-Time-Attention-Modelle.
English
Linear-time attention and State Space Models (SSMs) promise to solve the quadratic cost bottleneck in long-context language models employing softmax attention. We introduce Error-Free Linear Attention (EFLA), a numerically stable, fully parallelism and generalized formulation of the delta rule. Specifically, we formulate the online learning update as a continuous-time dynamical system and prove that its exact solution is not only attainable but also computable in linear time with full parallelism. By leveraging the rank-1 structure of the dynamics matrix, we directly derive the exact closed-form solution effectively corresponding to the infinite-order Runge-Kutta method. This attention mechanism is theoretically free from error accumulation, perfectly capturing the continuous dynamics while preserving the linear-time complexity. Through an extensive suite of experiments, we show that EFLA enables robust performance in noisy environments, achieving lower language modeling perplexity and superior downstream benchmark performance than DeltaNet without introducing additional parameters. Our work provides a new theoretical foundation for building high-fidelity, scalable linear-time attention models.