Динамическое линейное внимание

Аннотация

Масштабируемость больших языковых моделей (БЯМ) для работы с длинными контекстами принципиально ограничена квадратичной сложностью стандартного механизма внимания, что стимулирует применение линейных механизмов внимания с субквадратичной вычислительной стоимостью. Для повышения репрезентативной способности в условиях длинных контекстов современные подходы организуют память в многосостояниевой манере. Однако существующие методы многосостояниевого линейного внимания используют фиксированные политики слияния состояний, которые не могут адаптироваться к динамически изменяющейся важности токенов, необратимо скрывая критические токены и вызывая серьезное накопление ошибок на длинных последовательностях. Для преодоления этого ограничения мы предлагаем DLA — фреймворк динамического моделирования памяти для многосостояниевого линейного внимания. DLA вводит (i) информационно-зависимое динамическое слияние состояний, которое адаптивно определяет границы состояний на основе вариаций информации на уровне токенов, сохраняя представления с высоким разрешением вокруг семантических переходов и агрессивно обобщая стабильные области, а также (ii) моделирование памяти с ограниченной емкостью, которое поддерживает фиксированный, хронологически упорядоченный кэш состояний путем избирательного слияния соседних малоинформативных состояний для контроля роста памяти с минимальной потерей информации. Мы предобучаем DLA на двух различных моделях линейного внимания и оцениваем на 16 наборах данных по трем категориям. Экспериментальные результаты демонстрируют превосходство DLA над современными подходами.

English

The scalability of Large Language Models (LLMs) to long contexts is fundamentally constrained by the quadratic complexity of standard attention, motivating the adoption of linear attention mechanisms with sub-quadratic cost. To improve representation capacity under long contexts, recent approaches organize memory in a multi-state manner. However, existing multi-state linear attention methods rely on fixed state merging policies that cannot adapt to dynamically varying token importance, irreversibly obscuring critical tokens and causing severe error accumulation over long sequences. To address this limitation, we propose DLA, a dynamic memory modeling framework for multi-state linear attention. DLA introduces (i) Information-Aware Dynamic State Merging, which adaptively determines state boundaries based on token-level information variation, preserving high-resolution representations around semantic transitions while aggressively summarizing stable regions, and (ii) Capacity-Bounded Memory Modeling, which maintains a fixed-size, chronologically ordered state cache by selectively merging adjacent low-information states to control memory growth with minimal information loss. We pre-train DLA on two different linear attention models and evaluate on 16 datasets across three categories. Experimental results demonstrate the superiority of DLA over state-of-the-art.