ChatPaper.aiChatPaper

동적 선형 어텐션

Dynamic Linear Attention

June 9, 2026
저자: Xin Wang, Hui Shen, Boyuan Zheng, Xueshen Liu, Minkyoung Cho, Zhongwei Wan, Zesen Zhao, Zhuoqing Mao, Shen Yan, Mi Zhang
cs.AI

초록

대규모 언어 모델(LLM)의 장기 문맥 확장성은 표준 어텐션의 이차 복잡도에 의해 근본적으로 제약을 받으며, 이에 따라 준-이차 비용의 선형 어텐션 메커니즘 채택이 촉진되고 있다. 장기 문맥 하에서 표현 능력을 향상시키기 위해 최근 연구들은 메모리를 다중 상태 방식으로 구성한다. 그러나 기존의 다중 상태 선형 어텐션 방법은 동적으로 변화하는 토큰 중요도에 적응할 수 없는 고정된 상태 병합 정책에 의존하여, 중요한 토큰을 비가역적으로 모호하게 만들고 긴 시퀀스에서 심각한 오류 누적을 초래한다. 이러한 한계를 해결하기 위해 본 연구는 다중 상태 선형 어텐션을 위한 동적 메모리 모델링 프레임워크인 DLA를 제안한다. DLA는 (i) 토큰 수준의 정보 변화에 기반하여 상태 경계를 적응적으로 결정하고, 의미 전환 주변에서는 고해상도 표현을 유지하면서 안정적인 영역은 적극적으로 요약하는 정보 인식 동적 상태 병합(Information-Aware Dynamic State Merging), 그리고 (ii) 인접한 저정보 상태를 선택적으로 병합하여 최소한의 정보 손실로 메모리 증가를 제어함으로써 고정 크기, 시간 순서 상태 캐시를 유지하는 용량 제한 메모리 모델링(Capacity-Bounded Memory Modeling)을 도입한다. 우리는 두 가지 다른 선형 어텐션 모델에 DLA를 사전 학습하고, 세 가지 범주의 16개 데이터셋에서 평가를 수행한다. 실험 결과는 DLA가 최신 기술보다 우수함을 입증한다.
English
The scalability of Large Language Models (LLMs) to long contexts is fundamentally constrained by the quadratic complexity of standard attention, motivating the adoption of linear attention mechanisms with sub-quadratic cost. To improve representation capacity under long contexts, recent approaches organize memory in a multi-state manner. However, existing multi-state linear attention methods rely on fixed state merging policies that cannot adapt to dynamically varying token importance, irreversibly obscuring critical tokens and causing severe error accumulation over long sequences. To address this limitation, we propose DLA, a dynamic memory modeling framework for multi-state linear attention. DLA introduces (i) Information-Aware Dynamic State Merging, which adaptively determines state boundaries based on token-level information variation, preserving high-resolution representations around semantic transitions while aggressively summarizing stable regions, and (ii) Capacity-Bounded Memory Modeling, which maintains a fixed-size, chronologically ordered state cache by selectively merging adjacent low-information states to control memory growth with minimal information loss. We pre-train DLA on two different linear attention models and evaluate on 16 datasets across three categories. Experimental results demonstrate the superiority of DLA over state-of-the-art.