오차 없는 선형 어텐션은 공짜 점심: 연속 시간 역학에서의 정확한 해법
Error-Free Linear Attention is a Free Lunch: Exact Solution from Continuous-Time Dynamics
December 14, 2025
저자: Jingdi Lei, Di Zhang, Soujanya Poria
cs.AI
초록
선형 시간 어텐션과 상태 공간 모델(SSM)은 소프트맥스 어텐션을 사용하는 장문맥 언어 모델의 이차 비용 병목 현상을 해결할 것을 약속합니다. 본 논문에서는 수치적으로 안정적이며 완전한 병렬 처리가 가능하고 델타 규칙을 일반화한 오류 없는 선형 어텐션(EFLA)을 소개합니다. 구체적으로, 온라인 학습 업데이트를 연속 시간 동역학 시스템으로 공식화하고, 그 정확한 해가 달성 가능할 뿐만 아니라 선형 시간에 완전한 병렬 처리로 계산 가능함을 증명합니다. 동역학 행렬의 랭크-1 구조를 활용하여 무한 차수 런게-쿠타 방법에 효과적으로 해당하는 정확한 폐쇄형 해를 직접 유도합니다. 이 어텐션 메커니즘은 이론적으로 오류 누적이 없으며, 선형 시간 복잡도를 유지하면서 연속 동역학을 완벽하게 포착합니다. 광범위한 실험을 통해 EFLA가 잡음이 있는 환경에서도 견고한 성능을 발휘하며, 추가 매개변수를 도입하지 않고도 DeltaNet보다 낮은 언어 모델링 복잡도와 우수한 다운스트림 벤치마크 성능을 달성함을 보여줍니다. 본 연구는 높은 정확도와 확장성을 갖춘 선형 시간 어텐션 모델 구축을 위한 새로운 이론적 기반을 제공합니다.
English
Linear-time attention and State Space Models (SSMs) promise to solve the quadratic cost bottleneck in long-context language models employing softmax attention. We introduce Error-Free Linear Attention (EFLA), a numerically stable, fully parallelism and generalized formulation of the delta rule. Specifically, we formulate the online learning update as a continuous-time dynamical system and prove that its exact solution is not only attainable but also computable in linear time with full parallelism. By leveraging the rank-1 structure of the dynamics matrix, we directly derive the exact closed-form solution effectively corresponding to the infinite-order Runge-Kutta method. This attention mechanism is theoretically free from error accumulation, perfectly capturing the continuous dynamics while preserving the linear-time complexity. Through an extensive suite of experiments, we show that EFLA enables robust performance in noisy environments, achieving lower language modeling perplexity and superior downstream benchmark performance than DeltaNet without introducing additional parameters. Our work provides a new theoretical foundation for building high-fidelity, scalable linear-time attention models.