Attention linéaire dynamique

Résumé

La scalabilité des grands modèles de langage (LLM) pour les longs contextes est fondamentalement contrainte par la complexité quadratique de l'attention standard, ce qui motive l'adoption de mécanismes d'attention linéaire à coût sous-quadratique. Pour améliorer la capacité de représentation dans les contextes longs, des approches récentes organisent la mémoire de manière multi-état. Cependant, les méthodes existantes d'attention linéaire multi-état reposent sur des politiques de fusion d'états fixes, incapables de s'adapter à l'importance dynamique des tokens, obscurcissant irréversiblement les tokens critiques et provoquant une grave accumulation d'erreurs sur de longues séquences. Pour remédier à cette limitation, nous proposons DLA, un cadre de modélisation de mémoire dynamique pour l'attention linéaire multi-état. DLA introduit (i) la Fusion d'États Dynamique Sensible à l'Information, qui détermine de manière adaptative les frontières des états en fonction de la variation d'information au niveau des tokens, préservant des représentations à haute résolution autour des transitions sémantiques tout en résumant agressivement les régions stables, et (ii) la Modélisation de Mémoire à Capacité Limitée, qui maintient un cache d'états de taille fixe et ordonné chronologiquement en fusionnant sélectivement les états adjacents à faible information afin de contrôler la croissance de la mémoire avec une perte d'information minimale. Nous pré-entraînons DLA sur deux modèles d'attention linéaire distincts et l'évaluons sur 16 ensembles de données répartis dans trois catégories. Les résultats expérimentaux démontrent la supériorité de DLA par rapport à l'état de l'art.

English

The scalability of Large Language Models (LLMs) to long contexts is fundamentally constrained by the quadratic complexity of standard attention, motivating the adoption of linear attention mechanisms with sub-quadratic cost. To improve representation capacity under long contexts, recent approaches organize memory in a multi-state manner. However, existing multi-state linear attention methods rely on fixed state merging policies that cannot adapt to dynamically varying token importance, irreversibly obscuring critical tokens and causing severe error accumulation over long sequences. To address this limitation, we propose DLA, a dynamic memory modeling framework for multi-state linear attention. DLA introduces (i) Information-Aware Dynamic State Merging, which adaptively determines state boundaries based on token-level information variation, preserving high-resolution representations around semantic transitions while aggressively summarizing stable regions, and (ii) Capacity-Bounded Memory Modeling, which maintains a fixed-size, chronologically ordered state cache by selectively merging adjacent low-information states to control memory growth with minimal information loss. We pre-train DLA on two different linear attention models and evaluate on 16 datasets across three categories. Experimental results demonstrate the superiority of DLA over state-of-the-art.