Нативное разреженное внимание: аппаратно-ориентированное и изначально обучаемое разреженное вниманиеNative Sparse Attention: Hardware-Aligned and Natively Trainable Sparse
Attention
Моделирование длинных контекстов имеет ключевое значение для языковых моделей следующего поколения, однако высокая вычислительная стоимость стандартных механизмов внимания создает значительные вычислительные трудности. Разреженное внимание предлагает перспективное направление для повышения эффективности при сохранении возможностей модели. Мы представляем NSA (Natively trainable Sparse Attention) — механизм разреженного внимания, который интегрирует алгоритмические инновации с оптимизациями, ориентированными на аппаратное обеспечение, для достижения эффективного моделирования длинных контекстов. NSA использует динамическую иерархическую стратегию разрежения, сочетая грубое сжатие токенов с точным выбором токенов для сохранения как глобальной осведомленности о контексте, так и локальной точности. Наш подход продвигает дизайн разреженного внимания с двумя ключевыми инновациями: (1) Мы достигаем значительного ускорения за счет сбалансированного по арифметической интенсивности проектирования алгоритма с оптимизациями для современного оборудования. (2) Мы обеспечиваем сквозное обучение, сокращая вычисления на этапе предварительного обучения без ущерба для производительности модели. Как показано на Рисунке 1, эксперименты демонстрируют, что модель, предварительно обученная с использованием NSA, сохраняет или превосходит модели с полным вниманием на общих бенчмарках, задачах с длинным контекстом и рассуждениях на основе инструкций. При этом NSA достигает значительного ускорения по сравнению с полным вниманием на последовательностях длиной 64k токенов на этапах декодирования, прямого и обратного распространения, подтверждая свою эффективность на протяжении всего жизненного цикла модели.