ChatPaper.aiChatPaper

Attenzione Lineare Esente da Errori è un Pranzo Gratuito: Soluzione Esatta dalle Dinamiche a Tempo Continuo

Error-Free Linear Attention is a Free Lunch: Exact Solution from Continuous-Time Dynamics

December 14, 2025
Autori: Jingdi Lei, Di Zhang, Soujanya Poria
cs.AI

Abstract

L'attenzione a tempo lineare e i Modelli Spaziali di Stato (SSM) promettono di risolvere il collo di bottiglia del costo quadratico nei modelli linguistici a contesto lungo che impiegano l'attenzione softmax. Introduciamo Error-Free Linear Attention (EFLA), una formulazione numericamente stabile, completamente parallelizzabile e generalizzata della delta rule. Nello specifico, formuliamo l'aggiornamento dell'apprendimento online come un sistema dinamico a tempo continuo e dimostriamo che la sua soluzione esatta non solo è ottenibile ma anche calcolabile in tempo lineare con piena parallelizzazione. Sfruttando la struttura di rango-1 della matrice delle dinamiche, deriviamo direttamente la soluzione esatta in forma chiusa, che corrisponde efficacemente al metodo di Runge-Kutta di ordine infinito. Questo meccanismo di attenzione è teoricamente privo di accumulo di errori, catturando perfettamente le dinamiche continue preservando al contempo la complessità temporale lineare. Attraverso un'ampia serie di esperimenti, dimostriamo che EFLA consente prestazioni robuste in ambienti rumorosi, raggiungendo una minore perplexity nel modeling linguistico e prestazioni superiori sui benchmark downstream rispetto a DeltaNet, senza introdurre parametri aggiuntivi. Il nostro lavoro fornisce una nuova base teorica per la costruzione di modelli di attenzione a tempo lineare ad alta fedeltà e scalabili.
English
Linear-time attention and State Space Models (SSMs) promise to solve the quadratic cost bottleneck in long-context language models employing softmax attention. We introduce Error-Free Linear Attention (EFLA), a numerically stable, fully parallelism and generalized formulation of the delta rule. Specifically, we formulate the online learning update as a continuous-time dynamical system and prove that its exact solution is not only attainable but also computable in linear time with full parallelism. By leveraging the rank-1 structure of the dynamics matrix, we directly derive the exact closed-form solution effectively corresponding to the infinite-order Runge-Kutta method. This attention mechanism is theoretically free from error accumulation, perfectly capturing the continuous dynamics while preserving the linear-time complexity. Through an extensive suite of experiments, we show that EFLA enables robust performance in noisy environments, achieving lower language modeling perplexity and superior downstream benchmark performance than DeltaNet without introducing additional parameters. Our work provides a new theoretical foundation for building high-fidelity, scalable linear-time attention models.
PDF372December 22, 2025