SageBwd: Обучаемое низкобитное внимание

Аннотация

Низкобитная квантизация внимания, такая как SageAttention, стала эффективным подходом для ускорения вывода моделей, однако её применимость к обучению остаётся малоизученной. В предыдущей работе мы представили SageBwd — обучаемую квантизацию внимания в формате INT8, которая квантизирует шесть из семи матричных умножений матрицы внимания, сохраняя производительность при дообучении. Однако SageBwd демонстрировал устойчивый разрыв в производительности по сравнению с вниманием в полной точности (FPA) на этапе предварительного обучения. В данной работе мы исследуем причины этого разрыва и показываем, что SageBwd достигает производительности полной точности при предварительном обучении. Благодаря экспериментам и теоретическому анализу мы получили ряд важных инсайтов и выводов: (i) нормализация QK необходима для стабильности обучения при большом количестве токенов на шаг, (ii) ошибки квантизации в основном возникают из-за градиента оценок dS при обратном проходе, (iii) уменьшение количества токенов на шаг позволяет SageBwd достичь производительности FPA при предварительном обучении, и (iv) сглаживание K остаётся критически важным для стабильности обучения, тогда как сглаживание Q даёт ограниченный выигрыш на этапе предварительного обучения.

English

Low-bit attention, such as SageAttention, has emerged as an effective approach for accelerating model inference, but its applicability to training remains poorly understood. In prior work, we introduced SageBwd, a trainable INT8 attention that quantizes six of seven attention matrix multiplications while preserving fine-tuning performance. However, SageBwd exhibited a persistent performance gap to full-precision attention (FPA) during pre-training. In this work, we investigate why this gap occurs and demonstrate that SageBwd matches full-precision attention during pretraining. Through experiments and theoretical analysis, we reach a few important insights and conclusions: (i) QK-norm is necessary for stable training at large tokens per step, (ii) quantization errors primarily arise from the backward-pass score gradient dS, (iii) reducing tokens per step enables SageBwd to match FPA performance in pre-training, and (iv) K-smoothing remains essential for training stability, while Q-smoothing provides limited benefit during pre-training.

SageBwd: Обучаемое низкобитное внимание

SageBwd: A Trainable Low-bit Attention

Аннотация

Support