ChatPaper.aiChatPaper

L'attention linéaire sans erreur est un repas gratuit : solution exacte issue de la dynamique en temps continu

Error-Free Linear Attention is a Free Lunch: Exact Solution from Continuous-Time Dynamics

December 14, 2025
papers.authors: Jingdi Lei, Di Zhang, Soujanya Poria
cs.AI

papers.abstract

L'attention en temps linéaire et les modèles à espace d'états (SSM) promettent de résoudre le goulot d'étranglement du coût quadratique dans les modèles de langage à contexte long employant l'attention softmax. Nous présentons l'Attention Linéaire Sans Erreur (EFLA), une formulation numériquement stable, entièrement parallélisable et généralisée de la règle delta. Plus précisément, nous formulons la mise à jour de l'apprentissage en ligne comme un système dynamique en temps continu et prouvons que sa solution exacte est non seulement atteignable mais aussi calculable en temps linéaire avec un parallélisme total. En tirant parti de la structure de rang 1 de la matrice dynamique, nous dérivons directement la solution exacte sous forme fermée correspondant effectivement à la méthode de Runge-Kutta d'ordre infini. Ce mécanisme d'attention est théoriquement exempt d'accumulation d'erreurs, capturant parfaitement la dynamique continue tout en préservant la complexité en temps linéaire. Grâce à une vaste série d'expériences, nous montrons qu'EFLA permet des performances robustes dans des environnements bruités, atteignant une perplexité de modélisation du langage plus faible et des performances supérieures sur des benchmarks en aval par rapport à DeltaNet, sans introduire de paramètres supplémentaires. Notre travail fournit une nouvelle base théorique pour la construction de modèles d'attention en temps linéaire, évolutifs et à haute fidélité.
English
Linear-time attention and State Space Models (SSMs) promise to solve the quadratic cost bottleneck in long-context language models employing softmax attention. We introduce Error-Free Linear Attention (EFLA), a numerically stable, fully parallelism and generalized formulation of the delta rule. Specifically, we formulate the online learning update as a continuous-time dynamical system and prove that its exact solution is not only attainable but also computable in linear time with full parallelism. By leveraging the rank-1 structure of the dynamics matrix, we directly derive the exact closed-form solution effectively corresponding to the infinite-order Runge-Kutta method. This attention mechanism is theoretically free from error accumulation, perfectly capturing the continuous dynamics while preserving the linear-time complexity. Through an extensive suite of experiments, we show that EFLA enables robust performance in noisy environments, achieving lower language modeling perplexity and superior downstream benchmark performance than DeltaNet without introducing additional parameters. Our work provides a new theoretical foundation for building high-fidelity, scalable linear-time attention models.
PDF342December 17, 2025