Dynamische lineare Aufmerksamkeit

Zusammenfassung

Die Skalierbarkeit großer Sprachmodelle (LLMs) auf lange Kontexte wird grundlegend durch die quadratische Komplexität der Standard-Aufmerksamkeit eingeschränkt, was die Verwendung linearer Aufmerksamkeitsmechanismen mit subquadratischen Kosten motiviert. Zur Verbesserung der Repräsentationskapazität unter langen Kontexten organisieren neuere Ansätze den Speicher in einer Mehrzustandsweise. Allerdings basieren bestehende Methoden der linearen Aufmerksamkeit mit mehreren Zuständen auf festen Zustandsverschmelzungsstrategien, die sich nicht an dynamisch variierende Token-Wichtigkeiten anpassen können, wodurch kritische Token irreversibel verschleiert werden und über lange Sequenzen hinweg schwere Fehlerakkumulation entsteht. Um diese Einschränkung zu beheben, schlagen wir DLA vor, ein dynamisches Gedächtnismodellierungsframework für lineare Aufmerksamkeit mit mehreren Zuständen. DLA führt (i) die informationsbewusste dynamische Zustandsverschmelzung (Information-Aware Dynamic State Merging) ein, die Zustandsgrenzen adaptiv auf Basis der tokenbezogenen Informationsvariation festlegt, hochauflösende Repräsentationen um semantische Übergänge herum bewahrt und gleichzeitig stabile Regionen aggressiv zusammenfasst, sowie (ii) die kapazitätsbegrenzte Gedächtnismodellierung (Capacity-Bounded Memory Modeling), die einen festgroßen, chronologisch geordneten Zustandscache unterhält, indem sie selektiv benachbarte Zustände mit geringem Informationsgehalt verschmilzt, um das Speicherwachstum bei minimalem Informationsverlust zu kontrollieren. Wir trainieren DLA auf zwei verschiedenen linearen Aufmerksamkeitsmodellen vor und evaluieren es auf 16 Datensätzen aus drei Kategorien. Die experimentellen Ergebnisse belegen die Überlegenheit von DLA gegenüber dem Stand der Technik.

English

The scalability of Large Language Models (LLMs) to long contexts is fundamentally constrained by the quadratic complexity of standard attention, motivating the adoption of linear attention mechanisms with sub-quadratic cost. To improve representation capacity under long contexts, recent approaches organize memory in a multi-state manner. However, existing multi-state linear attention methods rely on fixed state merging policies that cannot adapt to dynamically varying token importance, irreversibly obscuring critical tokens and causing severe error accumulation over long sequences. To address this limitation, we propose DLA, a dynamic memory modeling framework for multi-state linear attention. DLA introduces (i) Information-Aware Dynamic State Merging, which adaptively determines state boundaries based on token-level information variation, preserving high-resolution representations around semantic transitions while aggressively summarizing stable regions, and (ii) Capacity-Bounded Memory Modeling, which maintains a fixed-size, chronologically ordered state cache by selectively merging adjacent low-information states to control memory growth with minimal information loss. We pre-train DLA on two different linear attention models and evaluate on 16 datasets across three categories. Experimental results demonstrate the superiority of DLA over state-of-the-art.