Atenção Linear Dinâmica

Resumo

A escalabilidade de Modelos de Linguagem de Grande Escala (LLMs) para contextos longos é fundamentalmente limitada pela complexidade quadrática da atenção padrão, motivando a adoção de mecanismos de atenção linear com custo subquadrático. Para melhorar a capacidade de representação em contextos longos, abordagens recentes organizam a memória de forma multiestado. No entanto, os métodos existentes de atenção linear multiestado dependem de políticas fixas de fusão de estados que não conseguem se adaptar à importância dinamicamente variável dos tokens, obscurecendo irreversivelmente tokens críticos e causando severa acumulação de erros ao longo de sequências longas. Para superar essa limitação, propomos DLA, uma estrutura de modelagem dinâmica de memória para atenção linear multiestado. O DLA introduz (i) Fusão Dinâmica de Estados Sensível à Informação, que determina adaptativamente os limites dos estados com base na variação de informação em nível de token, preservando representações de alta resolução ao redor de transições semânticas enquanto sumariza agressivamente regiões estáveis, e (ii) Modelagem de Memória com Capacidade Limitada, que mantém um cache de estados de tamanho fixo e ordenado cronologicamente, mesclando seletivamente estados adjacentes com baixa informação para controlar o crescimento da memória com perda mínima de informação. Pré-treinamos o DLA em dois modelos diferentes de atenção linear e avaliamos em 16 conjuntos de dados de três categorias. Os resultados experimentais demonstram a superioridade do DLA em relação ao estado da arte.

English

The scalability of Large Language Models (LLMs) to long contexts is fundamentally constrained by the quadratic complexity of standard attention, motivating the adoption of linear attention mechanisms with sub-quadratic cost. To improve representation capacity under long contexts, recent approaches organize memory in a multi-state manner. However, existing multi-state linear attention methods rely on fixed state merging policies that cannot adapt to dynamically varying token importance, irreversibly obscuring critical tokens and causing severe error accumulation over long sequences. To address this limitation, we propose DLA, a dynamic memory modeling framework for multi-state linear attention. DLA introduces (i) Information-Aware Dynamic State Merging, which adaptively determines state boundaries based on token-level information variation, preserving high-resolution representations around semantic transitions while aggressively summarizing stable regions, and (ii) Capacity-Bounded Memory Modeling, which maintains a fixed-size, chronologically ordered state cache by selectively merging adjacent low-information states to control memory growth with minimal information loss. We pre-train DLA on two different linear attention models and evaluate on 16 datasets across three categories. Experimental results demonstrate the superiority of DLA over state-of-the-art.