Atención Lineal Dinámica

Resumen

La escalabilidad de los Modelos de Lenguaje de Gran Escala (LLMs) a contextos largos está fundamentalmente limitada por la complejidad cuadrática de la atención estándar, lo que motiva la adopción de mecanismos de atención lineal con costo subcuadrático. Para mejorar la capacidad de representación en contextos largos, enfoques recientes organizan la memoria de manera multiestado. Sin embargo, los métodos existentes de atención lineal multiestado dependen de políticas fijas de fusión de estados que no pueden adaptarse a la importancia de tokens que varía dinámicamente, ocultando irreversiblemente tokens críticos y causando una severa acumulación de errores en secuencias largas. Para abordar esta limitación, proponemos DLA, un marco de modelado de memoria dinámica para atención lineal multiestado. DLA introduce (i) Fusión Dinámica de Estados Sensible a la Información, que determina adaptativamente los límites de los estados basándose en la variación de información a nivel de token, preservando representaciones de alta resolución alrededor de transiciones semánticas mientras condensa de manera agresiva regiones estables, y (ii) Modelado de Memoria con Capacidad Limitada, que mantiene una caché de estados de tamaño fijo y ordenada cronológicamente fusionando selectivamente estados adyacentes con baja información para controlar el crecimiento de la memoria con una pérdida mínima de información. Preentrenamos DLA en dos modelos de atención lineal diferentes y evaluamos en 16 conjuntos de datos de tres categorías. Los resultados experimentales demuestran la superioridad de DLA frente al estado del arte.

English

The scalability of Large Language Models (LLMs) to long contexts is fundamentally constrained by the quadratic complexity of standard attention, motivating the adoption of linear attention mechanisms with sub-quadratic cost. To improve representation capacity under long contexts, recent approaches organize memory in a multi-state manner. However, existing multi-state linear attention methods rely on fixed state merging policies that cannot adapt to dynamically varying token importance, irreversibly obscuring critical tokens and causing severe error accumulation over long sequences. To address this limitation, we propose DLA, a dynamic memory modeling framework for multi-state linear attention. DLA introduces (i) Information-Aware Dynamic State Merging, which adaptively determines state boundaries based on token-level information variation, preserving high-resolution representations around semantic transitions while aggressively summarizing stable regions, and (ii) Capacity-Bounded Memory Modeling, which maintains a fixed-size, chronologically ordered state cache by selectively merging adjacent low-information states to control memory growth with minimal information loss. We pre-train DLA on two different linear attention models and evaluate on 16 datasets across three categories. Experimental results demonstrate the superiority of DLA over state-of-the-art.