Atenção Linear Livre de Erros é um Almoço Grátis: Solução Exata a Partir da Dinâmica em Tempo Contínuo

Resumo

A atenção de tempo linear e os Modelos de Espaço de Estados (SSMs) prometem resolver o gargalo do custo quadrático em modelos de linguagem de contexto longo que empregam atenção softmax. Apresentamos a Atenção Linear Livre de Erros (EFLA), uma formulação numericamente estável, totalmente paralelizável e generalizada da regra delta. Especificamente, formulamos a atualização do aprendizado online como um sistema dinâmico de tempo contínuo e provamos que sua solução exata não só é atingível, mas também computável em tempo linear com paralelismo total. Ao aproveitar a estrutura de posto 1 da matriz de dinâmica, derivamos diretamente a solução de forma fechada exata, que corresponde efetivamente ao método de Runge-Kutta de ordem infinita. Esse mecanismo de atenção é teoricamente livre de acumulação de erros, capturando perfeitamente a dinâmica contínua enquanto preserva a complexidade de tempo linear. Por meio de uma extensa suíte de experimentos, mostramos que a EFLA permite um desempenho robusto em ambientes ruidosos, alcançando uma perplexidade de modelagem de linguagem mais baixa e um desempenho superior em benchmarks de tarefas subsequentes em comparação com a DeltaNet, sem introduzir parâmetros adicionais. Nosso trabalho fornece uma nova base teórica para a construção de modelos de atenção de tempo linear escaláveis e de alta fidelidade.

English

Linear-time attention and State Space Models (SSMs) promise to solve the quadratic cost bottleneck in long-context language models employing softmax attention. We introduce Error-Free Linear Attention (EFLA), a numerically stable, fully parallelism and generalized formulation of the delta rule. Specifically, we formulate the online learning update as a continuous-time dynamical system and prove that its exact solution is not only attainable but also computable in linear time with full parallelism. By leveraging the rank-1 structure of the dynamics matrix, we directly derive the exact closed-form solution effectively corresponding to the infinite-order Runge-Kutta method. This attention mechanism is theoretically free from error accumulation, perfectly capturing the continuous dynamics while preserving the linear-time complexity. Through an extensive suite of experiments, we show that EFLA enables robust performance in noisy environments, achieving lower language modeling perplexity and superior downstream benchmark performance than DeltaNet without introducing additional parameters. Our work provides a new theoretical foundation for building high-fidelity, scalable linear-time attention models.

Atenção Linear Livre de Erros é um Almoço Grátis: Solução Exata a Partir da Dinâmica em Tempo Contínuo

Error-Free Linear Attention is a Free Lunch: Exact Solution from Continuous-Time Dynamics

Resumo

Support