Уточнённый анализ массовых активаций в крупных языковых моделях
A Refined Analysis of Massive Activations in LLMs
March 28, 2025
Авторы: Louis Owen, Nilabhra Roy Chowdhury, Abhay Kumar, Fabian Güra
cs.AI
Аннотация
Отчасти мотивированные их значимостью для обучения с низкой точностью и квантования, массивные активации в больших языковых моделях (LLM) недавно стали предметом интереса. Однако существующие анализы ограничены по охвату, и обобщаемость между архитектурами остается неясной. Данная работа помогает устранить некоторые из этих пробелов, проводя анализ массивных активаций в широком спектре LLM, включая как архитектуры на основе GLU, так и без них. Наши результаты ставят под сомнение несколько предыдущих предположений, наиболее важные из которых: (1) не все массивные активации вредны, то есть их подавление не приводит к взрывному росту перплексии или ухудшению производительности на последующих задачах; (2) предлагаемые стратегии смягчения, такие как смещение Attention KV, специфичны для модели и в некоторых случаях неэффективны. В связи с этим мы исследуем новые гибридные стратегии смягчения; в частности, сочетание масштабирования целевой дисперсии (TVR) со смещением Attention KV или динамическим Tanh (DyT) успешно балансирует смягчение массивных активаций с сохранением производительности модели на последующих задачах в рассмотренных сценариях. Наш код доступен по адресу: https://github.com/bluorion-com/refine_massive_activations.
English
Motivated in part by their relevance for low-precision training and
quantization, massive activations in large language models (LLMs) have recently
emerged as a topic of interest. However, existing analyses are limited in
scope, and generalizability across architectures is unclear. This paper helps
address some of these gaps by conducting an analysis of massive activations
across a broad range of LLMs, including both GLU-based and non-GLU-based
architectures. Our findings challenge several prior assumptions, most
importantly: (1) not all massive activations are detrimental, i.e. suppressing
them does not lead to an explosion of perplexity or a collapse in downstream
task performance; (2) proposed mitigation strategies such as Attention KV bias
are model-specific and ineffective in certain cases. We consequently
investigate novel hybrid mitigation strategies; in particular pairing Target
Variance Rescaling (TVR) with Attention KV bias or Dynamic Tanh (DyT)
successfully balances the mitigation of massive activations with preserved
downstream model performance in the scenarios we investigated. Our code is
available at: https://github.com/bluorion-com/refine_massive_activations.