Uma Análise Refinada de Ativações Maciças em LLMs
A Refined Analysis of Massive Activations in LLMs
March 28, 2025
Autores: Louis Owen, Nilabhra Roy Chowdhury, Abhay Kumar, Fabian Güra
cs.AI
Resumo
Motivados em parte por sua relevância para treinamento de baixa precisão e
quantização, as ativações massivas em modelos de linguagem de grande escala (LLMs)
emergiram recentemente como um tópico de interesse. No entanto, as análises
existentes são limitadas em escopo, e a generalização entre arquiteturas não é
clara. Este artigo ajuda a abordar algumas dessas lacunas ao conduzir uma análise
das ativações massivas em uma ampla gama de LLMs, incluindo arquiteturas baseadas
em GLU e não baseadas em GLU. Nossas descobertas desafiam várias suposições
anteriores, mais importante: (1) nem todas as ativações massivas são prejudiciais,
ou seja, suprimi-las não leva a uma explosão de perplexidade ou a um colapso no
desempenho em tarefas subsequentes; (2) estratégias de mitigação propostas, como
o viés de Attention KV, são específicas do modelo e ineficazes em certos casos.
Consequentemente, investigamos novas estratégias híbridas de mitigação; em
particular, o emparelhamento de Target Variance Rescaling (TVR) com o viés de
Attention KV ou Dynamic Tanh (DyT) equilibra com sucesso a mitigação de ativações
massivas com a preservação do desempenho do modelo em tarefas subsequentes nos
cenários que investigamos. Nosso código está disponível em:
https://github.com/bluorion-com/refine_massive_activations.
English
Motivated in part by their relevance for low-precision training and
quantization, massive activations in large language models (LLMs) have recently
emerged as a topic of interest. However, existing analyses are limited in
scope, and generalizability across architectures is unclear. This paper helps
address some of these gaps by conducting an analysis of massive activations
across a broad range of LLMs, including both GLU-based and non-GLU-based
architectures. Our findings challenge several prior assumptions, most
importantly: (1) not all massive activations are detrimental, i.e. suppressing
them does not lead to an explosion of perplexity or a collapse in downstream
task performance; (2) proposed mitigation strategies such as Attention KV bias
are model-specific and ineffective in certain cases. We consequently
investigate novel hybrid mitigation strategies; in particular pairing Target
Variance Rescaling (TVR) with Attention KV bias or Dynamic Tanh (DyT)
successfully balances the mitigation of massive activations with preserved
downstream model performance in the scenarios we investigated. Our code is
available at: https://github.com/bluorion-com/refine_massive_activations.Summary
AI-Generated Summary