Un Análisis Refinado de Activaciones Masivas en Modelos de Lenguaje de Gran Escala
A Refined Analysis of Massive Activations in LLMs
March 28, 2025
Autores: Louis Owen, Nilabhra Roy Chowdhury, Abhay Kumar, Fabian Güra
cs.AI
Resumen
Motivados en parte por su relevancia para el entrenamiento de baja precisión y la cuantización, las activaciones masivas en los modelos de lenguaje grandes (LLMs, por sus siglas en inglés) han surgido recientemente como un tema de interés. Sin embargo, los análisis existentes son limitados en alcance, y la generalización entre arquitecturas no está clara. Este artículo ayuda a abordar algunas de estas brechas al realizar un análisis de las activaciones masivas en una amplia gama de LLMs, incluyendo tanto arquitecturas basadas en GLU como no basadas en GLU. Nuestros hallazgos desafían varias suposiciones previas, siendo las más importantes: (1) no todas las activaciones masivas son perjudiciales, es decir, suprimirlas no conduce a una explosión de la perplejidad ni a un colapso en el rendimiento de tareas posteriores; (2) las estrategias de mitigación propuestas, como el sesgo de Attention KV, son específicas del modelo y en ciertos casos ineficaces. En consecuencia, investigamos nuevas estrategias híbridas de mitigación; en particular, combinar el Reajuste de Varianza Objetivo (TVR, por sus siglas en inglés) con el sesgo de Attention KV o la Tangente Hiperbólica Dinámica (DyT, por sus siglas en inglés) logra equilibrar la mitigación de las activaciones masivas con la preservación del rendimiento del modelo en las tareas posteriores en los escenarios que investigamos. Nuestro código está disponible en: https://github.com/bluorion-com/refine_massive_activations.
English
Motivated in part by their relevance for low-precision training and
quantization, massive activations in large language models (LLMs) have recently
emerged as a topic of interest. However, existing analyses are limited in
scope, and generalizability across architectures is unclear. This paper helps
address some of these gaps by conducting an analysis of massive activations
across a broad range of LLMs, including both GLU-based and non-GLU-based
architectures. Our findings challenge several prior assumptions, most
importantly: (1) not all massive activations are detrimental, i.e. suppressing
them does not lead to an explosion of perplexity or a collapse in downstream
task performance; (2) proposed mitigation strategies such as Attention KV bias
are model-specific and ineffective in certain cases. We consequently
investigate novel hybrid mitigation strategies; in particular pairing Target
Variance Rescaling (TVR) with Attention KV bias or Dynamic Tanh (DyT)
successfully balances the mitigation of massive activations with preserved
downstream model performance in the scenarios we investigated. Our code is
available at: https://github.com/bluorion-com/refine_massive_activations.Summary
AI-Generated Summary