Беспроблемная линейная внимательность — это бесплатный обед: точное решение из динамики в непрерывном времени
Error-Free Linear Attention is a Free Lunch: Exact Solution from Continuous-Time Dynamics
December 14, 2025
Авторы: Jingdi Lei, Di Zhang, Soujanya Poria
cs.AI
Аннотация
Линейное внимание и модели пространства состояний (SSM) обещают решить проблему квадратичной стоимости в языковых моделях с длинным контекстом, использующих softmax-внимание. Мы представляем Error-Free Linear Attention (EFLA) — численно устойчивую, полностью параллельную и обобщенную формулировку дельта-правила. В частности, мы формулируем онлайн-обновление обучения как динамическую систему в непрерывном времени и доказываем, что ее точное решение не только достижимо, но и вычислимо за линейное время с полным параллелизмом. Используя ранговую-1 структуру матрицы динамики, мы напрямую выводим точное замкнутое решение, эффективно соответствующее методу Рунге—Кутты бесконечного порядка. Этот механизм внимания теоретически свободен от накопления ошибок, идеально捕捉 непрерывную динамику при сохранении линейной сложности. В ходе обширного экспериментального анализа мы показываем, что EFLA обеспечивает устойчивую работу в зашумленных средах, достигая более низкой перплексии языкового моделирования и превосходя DeltaNet по производительности на downstream-бенчмарках без введения дополнительных параметров. Наша работа закладывает новую теоретическую основу для построения высокоточной и масштабируемой линейной attention-модели.
English
Linear-time attention and State Space Models (SSMs) promise to solve the quadratic cost bottleneck in long-context language models employing softmax attention. We introduce Error-Free Linear Attention (EFLA), a numerically stable, fully parallelism and generalized formulation of the delta rule. Specifically, we formulate the online learning update as a continuous-time dynamical system and prove that its exact solution is not only attainable but also computable in linear time with full parallelism. By leveraging the rank-1 structure of the dynamics matrix, we directly derive the exact closed-form solution effectively corresponding to the infinite-order Runge-Kutta method. This attention mechanism is theoretically free from error accumulation, perfectly capturing the continuous dynamics while preserving the linear-time complexity. Through an extensive suite of experiments, we show that EFLA enables robust performance in noisy environments, achieving lower language modeling perplexity and superior downstream benchmark performance than DeltaNet without introducing additional parameters. Our work provides a new theoretical foundation for building high-fidelity, scalable linear-time attention models.